Skocz do zawartości

Wykrywanie robotów google


Rekomendowane odpowiedzi

Jest już kilka tematów na temat wykrywania robota google, ale żaden z nich nie wyczerpuje w pełni tego zagadnienia, zazwyczaj skupiając się na jednym aspekcie (useragent lub IP). Potrzebuję jak najdokładniej wykryć czy to rzeczywiście jest robot google, lepiej, aby skrypt był zbyt czuły niż przepuszczał wiele wejść. Zostawmy kwestie techniczną ze strony PHP czy innego języka programowania, a skupmy się na idei.

Po user agent.

Znalazłem poniższe dane, pod którymi podpisuje się robot google:

Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)

Googlebot/2.1 (+https://www.google.com/bot.html

Googlebot-News

Googlebot-Image/1.0

Googlebot-Video/1.0

Googlebot-Mobile/2.1; +https://www.google.com/bot.html

Mediapartners-Google/2.1; +https://www.google.com/bot.html

Mediapartners-Google

AdsBot-Google (+https://www.google.com/adsbot.html)

I na pewno jeszcze wiele, w których googlebot nie podpisuje się, tylko symuluje zwykłego użytkownika.

Adresy IP

Lista zakresów IP:

64.233.160.0 -	64.233.191.255
66.102.0.0 -	66.102.15.255
66.249.64.0 -	66.249.95.255
72.14.192.0 -	72.14.255.255
74.125.0.0 -	74.125.255.255
209.85.128.0 -	209.85.255.255
216.239.32.0 -	216.239.63.255

Jak będę wykrywał googlebota?

if ([uSER-AGENT=Google] OR [iP-ADDRESS=GoogleIP]) { Jest to googlebot }

Jest to dość obszerne porównanie, można też dać AND zamiast OR, wtedy na 99% (tak mi sie wydaje) powinien to być googlebot. Do wykrycia user agent wykorzystam powyzsza liste + (aby uogolnic wyniki) dodam wyszukanie w nazwie "oogle", gdybym nie znał wszystkich adresów.

Co o tym sądzicie? Znacie jeszcze inne IP, inne przeglądarki pod które podszywa się google?

Edit: z tymi robotami od zdjec/adwords itp. zakładam, ze jesli taki robot wszedl na strone, to w najblizszym czasie wejdzie rowniez normalny od indeksacji, dlatego są one dla mnie równe.

Wielka Promocja - Pakiet Zaplecze 2014
czyli oprogramowanie za 1746 zł w cenie 777zł brutto

Mówimy o Microsite Manager Standard, SpamKat i BaseSystem - wszystko to, co potrzebujesz do zaplecza!

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności