Skocz do zawartości

Lista robotów sieciowych z odnośnikami do wątków


piotrek

Rekomendowane odpowiedzi

Czy jest ktoś z Was zainteresowany stworzeniem i updatowaniem listy robotów które indexują nasze serwisy ale także tych które zżerają nam transfer, łykają adresy e-mail, są wysłane jako reklama bądź do innych celów skanują nasze strony?

[edit] w zwiazku z tym że w dalszej części wątku pojawiają się sugestie aby blokować zostawię mały skrypcik PHP jak to robić. czasem brak User-Agenta więc dodajemy do całej zabawy IP.


$ua = $_SERVER[HTTP_USER_AGENT];

$ip = $_SERVER[REMOTE_ADDR];



if (   eregi("fragment nazwy robota", $ua)  

   || eregi("fragment nazwy kolejnego robota", $ua) 

 // powielamy eregi

   || $ip == "blokowany numer IP" 

   || $ip == "kolejny blokowany numer IP"  

 // powielamy IP

 ) {



// wysyłamy podejrzanego robota w kosmos np. za pomocą header("location: https:// odchlankosmosu.commm"); 



} else {



// wyświetlamy treść



}

User-Agent: msnbot/1.0 (+https://search.msn.com/msnbot.htm)

ip: 65.54.188.101

nazwa: msnbot.msn.com

[info]

osobny wątek

User-Agent: Googlebot/2.1 (+https://www.google.com/bot.html)

ip: 66.249.64.79

nazwa: crawl-66-249-64-79.googlebot.com

[info]

osobny wątek

User-Agent: Szukacz/1.5 (robot; www.szukacz.pl/jakdzialarobot.html; info@szukacz.pl)

ip: 193.218.115.6

nazwa: robot.szukacz.pl

[info]

osobny wątek

User-Agent: Gigabot/2.0 (gigablast.com)

ip: 64.62.168.9

nazwa: 64.62.168.9

[info]

[edit] okzauje się że jednak nie tylko szukacz przenosi język, Gigabot także i przychodzi z "en"

osobny wątek

User-Agent: LWP::Simple/5.803

ip: 70.84.128.244

nazwa: 244.70-84-128.reverse.theplanet.com

[edit] wszystko wskazuje że to "referrer log spam"

osobny wątek

User-Agent: brak

ip: 212.14.41.6

nazwa: bork.ksiaznica.szczecin.pl

[edit] wydaje mi się że to był "referrer log spam"

User-Agent: EmeraldShield.com WebBot (https:// www. emeraldshield.com/webbot.aspx)

ip: 24.227.118.54

nazwa: rrcs-24-227-118-54.se.biz.rr.com

osobny wątek

- buduj content metodą drag&drop i łatwo zgarnij SEO backlinki z msDrop

- wideoporadniki jak korzystać z msDrop

Odnośnik do komentarza
Udostępnij na innych stronach

Czy jest ktoś z Was zainteresowany stworzeniem i updatowaniem listy robotów które zżerają nam transfer, łykają adresy e-mail, są wysłane jako reklama bądź do innych celów skanują nasze strony?

Z przyjemnością, jeszcze rok temu miałem dużą aktualną listę tego co po mnie łazi, teraz z braku czasu nie aktualizowana.

Tutaj?

Szy.

Odnośnik do komentarza
Udostępnij na innych stronach

Tutaj?

tak chyba tu będzie najlepsze miejsce, mogę przykleić ten post i mozemy wrzucać tu adresy ale bez wielkich dyskusji, dyskusje na temat poszczególnych robotów mozemy prowadzić w osobnych wątkach, ja jestem bardzo zainteresowany co po moich stronach łazi.

Szy, a może ogólnie zrobimy z tego wątku centrum informacji o robotach sieciowych i będziemy liknować do poszczególnych postów jeśli były rozpoczęte dyskusje albo jeśli się rozpoczną?

ale Wap'ów chyba nie będziemy ciąć? :)

User-Agent: Nokia6610I/1.0 (3.10) Profile/MIDP-1.0 Configuration/CLDC-1.0 (Google WAP Proxy/1.0)

IP: 64.233.167.4

host: 64.233.167.4

lang: en

User-Agent: SonyEricssonT610/R301 Profile/MIDP-1.0 Configuration/CLDC-1.0 (Google WAP Proxy/1.0)

IP: 64.233.167.4

host: 64.233.167.4

lang: en

[edit] dodałem jeszcze jednego WAP'a ale nie ma sensu chyba w ogóle nic z nimi robić

- buduj content metodą drag&drop i łatwo zgarnij SEO backlinki z msDrop

- wideoporadniki jak korzystać z msDrop

Odnośnik do komentarza
Udostępnij na innych stronach

Lista odpowiednia do tematu

lista tak, ale z wątku chciałem zrobić takie centrum informacji o robotach sieciowych, w sumie nie tylko niechcianych, do pierwszego wątku postaram się dodać kilka znanych robotów i dać odnośniki do dyskusji na forum PiO

a póki co mam trzy kolejne, które pierwszy raz na oczy widziałem

User-Agent: WorldWideWeb-X/3.1 (+https:// www. worldwideweb-x.com/)

IP: 67.167.114.21 | host: c-67-167-114-21.client.comcast.net

IP: 68.164.0.34 | host: h-68-164-0-34.chcgilgm.dynamic.covad.net

User-Agent: updated/0.1beta (updated.com; https:// www. updated.com; crawler@updated.com)

IP: 38.119.96.107

nazwa: 38.119.96.107

[edit]

User-Agent: pipeLiner/0.10 (PipeLine Spider; https://www.pipeline-search.com/webmaster.html)

IP: 24.106.39.250

nazwa: rrcs-24-106-39-250.west.biz.rr.com

[edit]

- buduj content metodą drag&drop i łatwo zgarnij SEO backlinki z msDrop

- wideoporadniki jak korzystać z msDrop

Odnośnik do komentarza
Udostępnij na innych stronach

Ja mam u siebie owego updated z błędem w u-a :):

'updated/0.1beta (updated.com; https://www.updated.com; crawler@updated.om)'

oraz, na W. w lutym, powyżej 100 zapytań:

UA: appie 1.1 (www.walhello.com)

IP: 80.60.35.143, 84.104.217.36, 84.104.217.38

UA: https://www.almaden.ibm.com/cs/crawler [fc12]

IP: 66.147.154.3

UA: pipeLiner/0.7 (PipeLine Spider; https://www.pipeline-search.com/webmaster.html; webmaster@pipeline-search.com)

IP: 24.106.39.250

Ten almaden.ibm, pamietam, że od dawna się pojawia, a wyleciało mi z głowy co to. Piotr, pamiętasz?

Szy.

Odnośnik do komentarza
Udostępnij na innych stronach

pamiętasz?

w zasadzie postanowiłem dosć dokładnie śledzić hasanie robotów dopiero na webwweb.com ale zerknąłem o co chodzi w almaden.ibm i to moze być robot na potrzeby wyszukiwarki wbudowanej na stronach IBM

- buduj content metodą drag&drop i łatwo zgarnij SEO backlinki z msDrop

- wideoporadniki jak korzystać z msDrop

Odnośnik do komentarza
Udostępnij na innych stronach

pare dni temu wyczyscilem cala baze.. no ale mam pare agentow (kazdy grubo setka requestow per doba):

UA: fukuiben (https://www.ibgakuin.ac.jp/~net/java/tes/fukui1.cgi)

IP: 211.120.209.3

Host: po.ibgakuin.ac.jp

UA: sohu-search

IP: 220.181.26.69

Host: 220.181.26.69

UA: DELTASCAN

harvester adresow email, uzywaja ludki z NEO, blokujcie bo to to jest szybsze w zbieraniu linkow niz msnbot..

Odnośnik do komentarza
Udostępnij na innych stronach

blokujcie bo to to jest szybsze w zbieraniu linkow niz msnbot

blokujcie albo zabezpieczajcie swoje e-maile - więcej o zabezpieczeniu adresu e-mail w wątku: ANTYSPAM - jak się chronić i wyglądać profesjonalnie

mam jeszcze ze trzy:

User-Agent: ZoomSpider - wrensoft.com

ip: 81.190.43.231

nazwa: host-81-190-43-231.szczecin.mm.pl

[info] czyżby to szookacz.pl ?

User-Agent: SurveyBot/2.3 (Whois Source)

nazwa: www.whois.sc

ip: 64.246.161.190

[info] wygląda, że to tylko sprawdzarka whois

ua: ia_archiver

ip: 209.237.238.179

nazwa: crawl29-public.alexa.com

[info] - nic dodać, nic ująć

wyciągnięte z wątku Maćka:

User-Agent: ichiro/1.0 (ichiro@nttr.co.jp)

ip: 210.173.179.57

nazwa: csr040.goo.ne.jp

osobny wątek

- buduj content metodą drag&drop i łatwo zgarnij SEO backlinki z msDrop

- wideoporadniki jak korzystać z msDrop

Odnośnik do komentarza
Udostępnij na innych stronach

dwa egzotyki:

UA: ShowTags/1.0 libwww/5.4.0

IP: 66.132.157.20

Host: spotmy .com

[info] nie wiadomo co to

UA: brak

IP: 80.53.166. 202

Host: idsl. lexell. com. pl

[info] j.w + szybki speed = radze zblokowac

na razie nie moge stwierdzic czy to cos pobiera robots.txt - pozniej dam znac.

-- edit --

w/w nie pobieraja pliku robots.txt - warto wiec wrzucic na czarna liste.

UA: CydralSpider/1.9 (Cydral Web Image Search; https://www. cydral. com)

IP: 213. 246.63. 116

[info] wyszukiwarka zdjec. jej funkcjonalnosc pozostawia niestety wiele do zyczenia, klikajac np. w miniaturke zdjecia wcale nie otwiera sie zdjecie powiekszone.. :)

a ciekawe co to za tajniak.. :-k

193. 218.115. 6 - - [20/Feb/2005:20:49:13 +0100] "GET /robots.txt HTTP/1.1" 200 219 "-" "-"

[edit by Piotrek] to IP szukacza

Odnośnik do komentarza
Udostępnij na innych stronach

a ja miałem dziś coś takiego:

User-Agent: Holmes/1.0

IP: 4.79.40.166

host: 4.79.40.166

[info] na innym forum wyczytałem ze wygląda to na robota chińskiej wyszukiwarki www. sherlock.com.cn

- buduj content metodą drag&drop i łatwo zgarnij SEO backlinki z msDrop

- wideoporadniki jak korzystać z msDrop

Odnośnik do komentarza
Udostępnij na innych stronach

ciekawe co to takiego

wejscia z telefonow :hello: swego czasu mialem tego duzo u siebie. zobacz post w ktorym czlowiek z G. probuje ustalic format jap. numerow tel.

i 3 nowe do kolekcji ;)

UA: SiteXpert

IP: 81. 190.41. 43

Host: host-81-190-41-43. szczecin. mm.pl

[info] czyzby znowu szook ?

UA: lwp-trivial/1.40

IP: 64. 136.59. 131

[info] nie wiem co to, ale 'spam log' to raczej nie jest, bo referer ma pusty

UA: Mozilla/5.0 (compatible; BecomeBot/2.2.1; MSIE 6.0 compatible; +https://www .become. com/webmasters.html)

IP: 213 .41.67. 34

Host: hosting-34.67. rev.fr. colt .net

[info] ze strony "Become is crawling the web to build a next generation search engine."

Odnośnik do komentarza
Udostępnij na innych stronach

złapane

User-Agent: NetSprint -- 2.0

IP: 217.153.57.115

host: 217.153.57.115

User-Agent: Mozilla/5.0 (compatible; Yahoo! Slurp; https://help.yahoo.com/help/us/ysearch/slurp)

ip: 66.196.91.130

host: lj1350.inktomisearch.com

zastanawia mnie czym się różni

User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)

IP: 66.249.66.112

host: crawl-66-249-66-112.googlebot.com

od

User-Agent: Googlebot/2.1 (+https://www.google.com/bot.html)

IP: 66.249.64.30

host: crawl-66-249-64-30.googlebot.com

:?

- buduj content metodą drag&drop i łatwo zgarnij SEO backlinki z msDrop

- wideoporadniki jak korzystać z msDrop

Odnośnik do komentarza
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności