Googlebot + nieistniejące adresy

Kleszcz · 1 Marca 2012

Witam

Proszę o jakąś podpowiedź jak pozbyć się problemu z Googlebotem, który chodząc po serwisie próbuje odwiedzać URL-e, które nie istnieją i nigdy nie istniały, np:

/artykul.php?id=/archiwum/2010/recenzja,1,.html

/artykul.php?id=/archiwum/2010/artykuly/artykul.php?id=/archiwum/2010/recenzja,1,.html

Czy rozwiązaniem jest odpowiednia modyfikacja robots.txt bądź .htaccess czy może takie zabezpieczenie skryptów aby uniemożliwić, wprawdzie z błedami ale wyświetlenie treści z błędnymi parametrami $_GET ?

dota0001 · 1 Marca 2012

Jeśli strony nie istnieją, a jakieś linki prowadzą tam roboty, zrób przekierowania.

Możesz podać kod błędu 404 i wyświetlić stronę błędu lub przekierować na stronę główną, mapę witryny lub odpowiednie treści.

Kleszcz · 1 Marca 2012

Jeśli strony nie istnieją, a jakieś linki prowadzą tam roboty, zrób przekierowania.
Możesz podać kod błędu 404 i wyświetlić stronę błędu lub przekierować na stronę główną, mapę witryny lub odpowiednie treści.

Sęk w tym ,że żadne linki tam nie prowadzą. To są jakieś absurdalne zlepki adresów z parametrami GET i ścieżkami.

dota0001 · 1 Marca 2012

Mimo wszystko, jeśli strona nie isntnieje, od tego jest kod błędu 404.

WebReklama · 1 Marca 2012

A może to są jakieś roboty które szukają dziur w zainstalowanych aplikacjach? Bardzo często mam w logach z błedami 404 mam phpmyadmin-X.Y.Z/ i tu przegląd prawie wszystkich wydanych wersji

Karlosky · 1 Marca 2012

A skąd masz informację, że to Googlebot odwiedza te informacje? To wygląda bardziej na automat pobierający treść ze stron..

E: literówka

Kleszcz · 1 Marca 2012

A skąd masz informację, że to Googlebot odwiedza te informacje? To wygląda bardziej na automat pobierający treść ze stron..
E: literówka

Tak się przedstawia, widzę to w logach (logs/nazwa-domeny.log):

HTTP/1.1" 200 8152 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

Mimo wszystko, jeśli strona nie isntnieje, od tego jest kod błędu 404.

Czyli wszystko się sprowadza, zeby maksymalnie szeroko przewidzieć jak będą wyglądały te nieistnoiejące adresy i w php przypisać im np. w warunku wywołanie 404 ?

WebReklama · 1 Marca 2012

Dać w htaccess:

ErrorDocument 404 blad404.php

Kleszcz · 1 Marca 2012

Dać w htaccess:
ErrorDocument 404 blad404.php

Nic to nie da. Błedne adresy URL nie powodują 404.

dargre` · 4 Marca 2012

Nic to nie da. Błedne adresy URL nie powodują 404.

Ty poważny koleś jesteś?

Oczywiście że błędne adresy wywołują header 404.

Widzi to nie tylko Googlebot ale można to też znaleźć w Webmaster Tools, a to już nie jest dobry znak.

Ja so bie radzę z tym przede wszystkim z poziomu htaccess (a w moim przypadku z poziomu httpd.conf).

Jeśli to jakiś durny parametr a nie QUERY STRING to daję:

RewriteRule ^(.*)mysql-connect(.*) invalid.php [QSA,NC,L]

W tym przypadku jakiś durny automat dodaje parametr "mysql-connect"

Przy pomocy rewrite rule przekierowuję dziadostwo na "invalid.php", który dalej jest przepisywany na samo invalid

Popularnym "niechcianym" query string jest np. "?fb_xd_fragment" made by facebook

Taki query string można usunąć:

RewriteCond %{QUERY_STRING} ^fb_xd_fragment$

RewriteRule ^(.*)$ /$1? [R=301,L]

Alternatywnie można usunąć każdy inny niechciany qeuery string

Niestety każda strona jest męczona przez stado botów, automatów, złodziei contentu, które produkują wiele różnych debilnych zapytań i zlepek podejrzanego kodu.

Szary webmaster tego specjalnie nie widzi, ale jak się ma dobry program do statystyk, to widać to jak na dłoni.

Na 100 wizyt połowa lub więcej to roboty.

Niestety często też niechcaine rezultaty pojawiają się w Webmaster Tools jako błędy.

yavaho · 4 Marca 2012

/artykul.php?id=/archiwum/2010/artykuly/artykul.php?id=/archiwum/2010/recenzja,1,.html

A ja tu widze (jakby to nazwać) zapętlenie linku

Jeżeli w linku podaje sie znak slasha, to robot a nawet przegladarka domyślnie przyjmuje że chdzi o katalogi. W takim przypadku gdy w kodzie html podawane sa linki względne i nie ma nigdzie informacji o basedir to robot lub przeglądarka produkuje takie właśnie tasiemce, na ktore potem sa próby wejścia.

Zaloguj się

Googlebot + nieistniejące adresy

Rekomendowane odpowiedzi

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Zarchiwizowany

Ostatnio przeglądający 0 użytkowników

Polecamy

Współpracują z nami

Powiadomienie o plikach cookie