Skocz do zawartości

Googlebot + nieistniejące adresy


Kleszcz

Rekomendowane odpowiedzi

Witam

Proszę o jakąś podpowiedź jak pozbyć się problemu z Googlebotem, który chodząc po serwisie próbuje odwiedzać URL-e, które nie istnieją i nigdy nie istniały, np:

/artykul.php?id=/archiwum/2010/recenzja,1,.html

/artykul.php?id=/archiwum/2010/artykuly/artykul.php?id=/archiwum/2010/recenzja,1,.html

Czy rozwiązaniem jest odpowiednia modyfikacja robots.txt bądź .htaccess czy może takie zabezpieczenie skryptów aby uniemożliwić, wprawdzie z błedami ale wyświetlenie treści z błędnymi parametrami $_GET ?

Odnośnik do komentarza
Udostępnij na innych stronach

Jeśli strony nie istnieją, a jakieś linki prowadzą tam roboty, zrób przekierowania.

Możesz podać kod błędu 404 i wyświetlić stronę błędu lub przekierować na stronę główną, mapę witryny lub odpowiednie treści.

Copywriting - GG: 6473667

Chętnie nawiążę stałą współpracę pisząc wysokiej jakości artykuły na portale tematyczne.

Przy okazji zapraszam na mój autorski blog konsumencki - Smakata.pl

Odnośnik do komentarza
Udostępnij na innych stronach

Jeśli strony nie istnieją, a jakieś linki prowadzą tam roboty, zrób przekierowania.

Możesz podać kod błędu 404 i wyświetlić stronę błędu lub przekierować na stronę główną, mapę witryny lub odpowiednie treści.

Sęk w tym ,że żadne linki tam nie prowadzą. To są jakieś absurdalne zlepki adresów z parametrami GET i ścieżkami.

Odnośnik do komentarza
Udostępnij na innych stronach

A skąd masz informację, że to Googlebot odwiedza te informacje? To wygląda bardziej na automat pobierający treść ze stron..

E: literówka

Moje skromne przemyślenia na temat pozycjonowania próbuję przedstawiać na blogu -> https://blog.karlosky.pl
Osoby zainteresowane współpracą w zakresie SEO zapraszam na stronę www.topmaker.pl oraz https://pozycjonowanie-bialystok.pl

Odnośnik do komentarza
Udostępnij na innych stronach

A skąd masz informację, że to Googlebot odwiedza te informacje? To wygląda bardziej na automat pobierający treść ze stron..

E: literówka

Tak się przedstawia, widzę to w logach (logs/nazwa-domeny.log):

HTTP/1.1" 200 8152 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
Mimo wszystko, jeśli strona nie isntnieje, od tego jest kod błędu 404.

Czyli wszystko się sprowadza, zeby maksymalnie szeroko przewidzieć jak będą wyglądały te nieistnoiejące adresy i w php przypisać im np. w warunku wywołanie 404 ?

Odnośnik do komentarza
Udostępnij na innych stronach

Nic to nie da. Błedne adresy URL nie powodują 404.

Ty poważny koleś jesteś?

Oczywiście że błędne adresy wywołują header 404.

Widzi to nie tylko Googlebot ale można to też znaleźć w Webmaster Tools, a to już nie jest dobry znak.

Ja so bie radzę z tym przede wszystkim z poziomu htaccess (a w moim przypadku z poziomu httpd.conf).

Jeśli to jakiś durny parametr a nie QUERY STRING to daję:

RewriteRule ^(.*)mysql-connect(.*) invalid.php [QSA,NC,L]

W tym przypadku jakiś durny automat dodaje parametr "mysql-connect"

Przy pomocy rewrite rule przekierowuję dziadostwo na "invalid.php", który dalej jest przepisywany na samo invalid

Popularnym "niechcianym" query string jest np. "?fb_xd_fragment" made by facebook

Taki query string można usunąć:

RewriteCond %{QUERY_STRING} ^fb_xd_fragment$

RewriteRule ^(.*)$ /$1? [R=301,L]

Alternatywnie można usunąć każdy inny niechciany qeuery string

Niestety każda strona jest męczona przez stado botów, automatów, złodziei contentu, które produkują wiele różnych debilnych zapytań i zlepek podejrzanego kodu.

Szary webmaster tego specjalnie nie widzi, ale jak się ma dobry program do statystyk, to widać to jak na dłoni.

Na 100 wizyt połowa lub więcej to roboty.

Niestety często też niechcaine rezultaty pojawiają się w Webmaster Tools jako błędy.

Sorry, nie odpowiadam na PMy

Odnośnik do komentarza
Udostępnij na innych stronach

/artykul.php?id=/archiwum/2010/artykuly/artykul.php?id=/archiwum/2010/recenzja,1,.html

A ja tu widze (jakby to nazwać) zapętlenie linku

Jeżeli w linku podaje sie znak slasha, to robot a nawet przegladarka domyślnie przyjmuje że chdzi o katalogi. W takim przypadku gdy w kodzie html podawane sa linki względne i nie ma nigdzie informacji o basedir to robot lub przeglądarka produkuje takie właśnie tasiemce, na ktore potem sa próby wejścia.

.

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności