Skocz do zawartości

Lista robotów sieciowych z odnośnikami do wątków


piotrek

Rekomendowane odpowiedzi

Z opóźnieniem ale zgodnie z obietnicą podaje zmiany, które umożliwią blokowanie zakresów. Oto zmieniona funcja 'blozakres'

function blozakres($zakres,$ip_,$zakresdo=""){
$ip_od = explode(".",$zakres);
$ip_we = explode(".",$ip_);
if (!$zakresdo) {
 $zakresdo = $zakres;
}
$ip_do = explode(".",$zakresdo);
for( $x = 0; $x < 4; $x++ ){
 $ip_od[$x] = sprintf("%03d",$ip_od[$x]);
 $ip_we[$x] = sprintf("%03d",$ip_we[$x]);
 if (!$ip_do[$x]) {
   $ip_do[$x]=255;
 }
 $ip_do[$x] = sprintf("%03d",$ip_do[$x]);
}

$zakres   = implode("",$ip_od) + 0;
$ip_      = implode("",$ip_we) + 0;
$zakresdo = implode("",$ip_do) + 0;
return (($ip_ >= $zakres) && ($ip_ <= $zakresdo));
}

teraz kilka objasnien:

1. nie zmienialem nazwy funcji by nie trzeba bylo dokonywac zmian w miejscu gdzie funcja jest wywolywana

2. Nie zmienialem kolejnosci parametrow z tego samego powodu co wyzej

3. Nie ma juz koniecznosci stosowania kropek po podaniu adresu (taki wymóg był poprzednio)

4. Nowa funkcja jest w pełni kompatybilna z poprzednią - jedyne zmiany to nowe możliwości o których poniżej piszę.

Ponizej sposob wywolania

 

|| blozakres(poczatek_zakresu, sprawdzane_ip, koniec_zakresu) 

gdzie 'koniec_zakresu' jest parametrem opcjonalnym.

Teraz przyklady wywolania funcji

...a jak mozna twoim przerobionym skryptem zablokować np. taki przedzial (64.71.128.0 - 64.71.191.255). 

teraz juz mozna:

|| blozakres("64.71.128.0",$ip,"64.71.191.255")

lub krócej

|| blozakres("64.71.128",$ip,"64.71.191")

Pozdrawiam.

Odnośnik do komentarza
Udostępnij na innych stronach

  • 3 tygodnie później...

UA: e-SocietyRobot(https://www.yama.info.waseda.ac.jp/~yamana/es/)

IP: 133.9.68.243

[info]Latał u mnie całe rano, zeżarł troche transferu i nic z tego nie wynika bo jego strona jest po japońsku (?) i jedyne co zrozumiałem to to, że czyta robots.txt :jezyk1:

Systemy Wymiany Linków - Zdobądź więcej linków przy pomocy systemów automatycznej wymiany linków!

Odnośnik do komentarza
Udostępnij na innych stronach

Było:

Takie coś rozrabia mi ostatnie dni:

IP: 133.9.68.243

UA: e-SocietyRobot(https://www.yama.info.waseda.ac.jp/~yamana/es/)

Szy.

"Wielkie uczyniłaś pustki w kraju naszym,

Ty żałosna partio tym rządzeniem waszym.

(...)

Z każdego kąta żałość człowieka ujmuje

A kraj już nowych rządów tęskno wypatruje."

Odnośnik do komentarza
Udostępnij na innych stronach

UA: Zongbot /1.0 (+https://www.zong.pl/addurl.php)

IP: 83.27.130.224

host: ays224.neoplus.adsl.tpnet.pl

hm.. teoretycznie to wyszukiwarka, po wstępnych oględzinach wygląda to na kolejny system który chętnie zje strony po to aby wbić się wyżej w wynikach wyszukiwania wiodących wyszukiwarek

- system zbudowany o pliki *.html

- dziesięciostronicowy ranking najpopularniejszych słów

- odnośniki do stron z założonym REL=NOFOLLOW

nie wiem jak Wy ale ja blokuję, nie zgłaszałem tam strony a robot sam przyszedł , każde wejście Zongbot'a to tak naprawdę 2 wejścia w tym samym czasie - 1 z UA drugie bez

site:

jeszcze jeden robot

UA: NG/2.0

ip: 84.233.148.20

host: ng20.exabot.com

wygląda że to robot testowej wyszukiwarki https://beta.exalead.com/search - pobawcie się nią, całkiem fajna

- buduj content metodą drag&drop i łatwo zgarnij SEO backlinki z msDrop

- wideoporadniki jak korzystać z msDrop

Odnośnik do komentarza
Udostępnij na innych stronach

  • 4 tygodnie później...

Wracajac do tematu... nie lepiej "obrocic ten skrypt do gory nogami" i napisac go na odwrot tzn..

jesli w user-agent znajduje sie to co chcemy to puszczamy a jesli jest cos innego to wywalamy..

mniejsza baza - prostszy skrypt i dodajemy do bazy/tablicy tylko te szukarki/przegladarki w ktorych chcemy byc...

druga sprawa to to ze mozna sie podszyc pod jakas przegladarke i co wtedy ?

Remember to brush your teeth !
tworzenie stron w rozsądnej cenie oraz biuro rachunkowe poznań.

Nie masz jak dojechać? Wynajmij limuzynę w Poznaniu.

Odnośnik do komentarza
Udostępnij na innych stronach

...

druga sprawa to to ze mozna sie podszyc pod jakas przegladarke i co wtedy ?

No właśnie.. i co wtedy !? Sam sobnie odpowiedz co się stanie jak 'podszyjesz się' pod robota wymienionego w tablicy

...jesli w user-agent znajduje sie to co chcemy to puszczamy a jesli jest cos innego to wywalamy..

Teoretycznie masz rację, praktycznie - nie bardzo. Dlaczego ?

Łatwiej jest dodać do listy blokowanych coś co zaczyna połykać transfer, niż (w Twoim przypadku) dopisywać do listy coś co należy wpuścić (bo niby skąd mam wiedzieć jak to 'coś' się przedstawia !?). Poza przeglądarkami są jeszcze narzędzia SEO itp...

Odnośnik do komentarza
Udostępnij na innych stronach

  • 1 miesiąc temu...
  • 1 miesiąc temu...

Czy ktoś może podać pełen kod pliku blokrob.php ?

Z tych postów to już się połapać nie można...

Heh...

No i rozumiem, że najlepiej blokować wszytskie boty poza:

Googlebot

MSNbot

Yahoo

Onet.pl

?

Serdecznie dziękuję i pozdrawiam.

/edit:

Mój obecny kod wygląda tak:

<?php
$ua = $_SERVER[HTTP_USER_AGENT]; 
$ip = $_SERVER[REMOTE_ADDR]; 

function blozakres($zakres,$ip_,$zakresdo=""){
$ip_od = explode(".",$zakres);
$ip_we = explode(".",$ip_);
if (!$zakresdo) {
$zakresdo = $zakres;
}
$ip_do = explode(".",$zakresdo);
for( $x = 0; $x < 4; $x++ ){
$ip_od[$x] = sprintf("%03d",$ip_od[$x]);
$ip_we[$x] = sprintf("%03d",$ip_we[$x]);
if (!$ip_do[$x]) {
  $ip_do[$x]=255;
}
$ip_do[$x] = sprintf("%03d",$ip_do[$x]);
}

$zakres   = implode("",$ip_od) + 0;
$ip_	  = implode("",$ip_we) + 0;
$zakresdo = implode("",$ip_do) + 0;
return (($ip_ >= $zakres) && ($ip_ <= $zakresdo));
}

if (   eregi("Szukacz/1.5 (robot; www.szukacz.pl/jakdzialarobot.html; info@szukacz.pl)", $ua)  
|| eregi("LWP::Simple/5.803", $ua) 
|| eregi("EmeraldShield.com WebBot (https:// www. emeraldshield.com/webbot.aspx)", $ua) 
|| eregi("appie 1.1 (www.walhello.com)", $ua) 
|| eregi("https://www.almaden.ibm.com/cs/crawler [fc12]", $ua) 
|| eregi("pipeLiner/0.7 (PipeLine Spider; https://www.pipeline-search.com/webmaster.html; webmaster@pipeline-search.com)", $ua) 
|| eregi("fukuiben (https://www.ibgakuin.ac.jp/~net/java/tes/fukui1.cgi)", $ua) 
|| eregi("sohu-search", $ua)
|| eregi("DELTASCAN", $ua) 
|| eregi("ZoomSpider - wrensoft.com", $ua) 
|| eregi("SurveyBot/2.3", $ua) 
|| eregi("ia_archiver", $ua) 
|| eregi("ichiro/1.0 (ichiro@nttr.co.jp)", $ua) 
|| eregi("ShowTags/1.0 libwww/5.4.0", $ua) 
|| eregi("CydralSpider/1.9 (Cydral Web Image Search; https://www.cydral.com)", $ua) 
|| eregi("Holmes/1.0", $ua) 
|| eregi("UP.Browser/6.1.0.1.140 (Google CHTML Proxy/1.0)", $ua) 
|| eregi("Mozilla/5.0 (compatible; BecomeBot/2.2.1; MSIE 6.0 compatible; +https://www.become.com/webmasters.html) ", $ua) 
|| eregi("IRLbot/1.0 (https://irl.cs.tamu.edu/crawler)", $ua) 
|| eregi("OmniExplorer_Bot/1.07 (https://www.omni-explorer.com)", $ua) 
|| eregi("EasyDL/3.04 (https://keywen.com/Encyclopedia/Bot)", $ua) 
|| eregi("WebCopier v3.0", $ua) 
|| eregi("NetResearchServer (NRS)", $ua) 
|| eregi("LmCrawler", $ua) 
|| eregi("Mozilla/4.0 (compatible; MSIE 6.0; Windows XP Professional Bot v.5.)", $ua) 
|| eregi("Missigua Locator 1.9", $ua) 
|| eregi("TurnitinBot/2.0", $ua) 
|| eregi("boitho.com-dc/0.71", $ua) 
|| eregi("NMG Spider/0.3 (szukanko.com)", $ua) 
|| eregi("NutchCVS/0.06-dev (Nutch; https:// www. nutch. org/docs/en/bot.html; nutch-agent@ lists.sourceforge .net)", $ua) 
|| eregi("PlantyNet_WebRobot_V1.9 dhkang@plantynet.com", $ua) 
|| eregi("NP/0.1 (NP; https://www.nameprotect.com; npbot@nameprotect.com)", $ua) 
|| eregi("Mozilla/4.0 compatible ZyBorg/1.0 Dead Link Checker (wn.dlc@looksmart.net; https://www.WISEnutbot.com)", $ua) 
|| eregi("Mozilla/4.0 compatible ZyBorg/1.0 Dead Link Checker (wn.dlc@looksmart.net; ]https://www.WISEnutbot.com)", $ua) 
|| eregi("e-SocietyRobot(https://www.yama.info.waseda.ac.jp/~yamana/es/)", $ua) 
|| eregi("OmniExplorer_Bot/1.07 (https://www.omni-explorer.com) Internet Categorizer", $ua) 
|| eregi("Vagabondo/3.0 (webagent at wise-guys dot nl)", $ua) 
|| eregi("Mozilla/4.0 (compatible; Vagabondo/2.3; webcrawler at wise-guys dot nl; https://webagent.wise-guys.nl/)", $ua) 
|| eregi("Norbert the Spider(Burf.com)", $ua) 
|| eregi("larbin_2.6.3 larbin2.6.3@unspecified.mail", $ua) 
|| eregi("ObjectsSearch/0.06", $ua) 
|| eregi("Jakarta Commons-HttpClient/2.0M1", $ua) 
|| eregi("psbot/0.1 (https://www.picsearch.com/bot.html)", $ua) 
|| eregi("krawler/0.1alfa", $ua) 
|| eregi("Zongbot /1.0 (https://www.zong.pl/addurl.php)", $ua) 
|| eregi("NG/2.0", $ua) 
|| eregi("Norbert the Spider(Burf.com)", $ua) 

 // powielamy eregi 

// || blozakres("początek zakresu",&ip,"koniec_zakresu")   
|| blozakres("65.19.128.0",$ip,"65.19.191.255")   
|| blozakres("64.71.131.96",$ip,"64.71.131.127")  

|| $ip == "193.218.115.6"
|| $ip == "70.84.128.244"  
|| $ip == "212.14.41.6"  
|| $ip == "24.227.118.54" 
|| $ip == "80.60.35.143"	  
|| $ip == "84.104.217.36"
|| $ip == "84.104.217.38"  
|| $ip == "24.106.39.250"
|| $ip == "66.147.154.3"
|| $ip == "211.120.209.3"
|| $ip == "220.181.26.69"
|| $ip == "81.190.43.231"
|| $ip == "64.246.161.190"
|| $ip == "209.237.238.179"
|| $ip == "210.173.179.57"
|| $ip == "66.132.157.20"
|| $ip == "80.53.166.202"
|| $ip == "213.246.63.116"
|| $ip == "193.218.115.6" 	
|| $ip == "4.79.40.166" 	
|| $ip == "64.233.179.4" 	
|| $ip == "64.136.59.131" 	
|| $ip == "213.41.67.34 " 	
|| $ip == "128.194.135.80" 	
|| $ip == "64.62.175.138" 
|| $ip == "69.31.80.250 " 
|| $ip == "65.110.43.50" 
|| $ip == "217.160.254.242" 
|| $ip == "69.41.173.104" 
|| $ip == "220.130.145.70" 
|| $ip == "24.177.134.5" 
|| $ip == "64.242.88.50" 
|| $ip == "133.9.68.243" 
|| $ip == "65.19.150.243" 
|| $ip == "194.109.125.201" 
|| $ip == "85.124.84.211" 
|| $ip == "69.150.7.165" 
|| $ip == "81.187.167.51" 
|| $ip == "217.212.224.143" 
|| $ip == "80.51.198.186" 
|| $ip == "83.27.130.224" 
|| $ip == "84.233.148.20" 
|| $ip == "65.19.169.249" 
|| $ip == "65.19.150.240" 
// omni
|| $ip == "64.71.131.107"
|| $ip == "64.71.131.109"
|| $ip == "64.71.131.110"
|| $ip == "64.71.131.111"
|| $ip == "64.71.131.112"
|| $ip == "64.71.131.113"
|| $ip == "64.71.131.114"
|| $ip == "64.71.131.117"
|| $ip == "64.71.131.119"
|| $ip == "65.19.134.3"
|| $ip == "65.19.134.14"
|| $ip == "65.19.150.14"
|| $ip == "65.19.150.15"
|| $ip == "65.19.150.206"
|| $ip == "65.19.150.207"
|| $ip == "65.19.150.208"
|| $ip == "65.19.150.212"
|| $ip == "65.19.150.215"
|| $ip == "65.19.150.213"
|| $ip == "65.19.150.225"
|| $ip == "65.19.150.226"
|| $ip == "65.19.150.235"
|| $ip == "65.19.150.237"
|| $ip == "65.19.150.236"
|| $ip == "65.19.150.238"
|| $ip == "65.19.150.241"
|| $ip == "65.19.150.240"
|| $ip == "65.19.150.247"
|| $ip == "65.19.150.248"
|| $ip == "65.19.150.251"
|| $ip == "65.19.150.252"
|| $ip == "65.19.150.254"
|| $ip == "65.19.169.242"
|| $ip == "65.19.169.246"
|| $ip == "65.19.169.249"
|| $ip == "65.19.169.253"
|| $ip == "65.19.169.254"

// powielamy IP 

 )
{ 
// wysyłamy podejrzanego robota w kosmos np. za pomocą 
header("location: https://$ip"); 
header("Connection: close");
}
?>

Czy to jest prawidłowy skrypt ? I czy blokuje to co trzeba... ?

Edytowane przez kruzyk

Pokażę wam tylko systemy wymiany linków.

kruzyk.1.gif

Odnośnik do komentarza
Udostępnij na innych stronach

  • 1 miesiąc temu...

Mysle ze wystarczy identyfikowac bota tylko po jego charakterystycznej krotkiej nazwie:

eregi('(googlebot)+|(lycos)+|(msnbot)+|(szukacz)+|(itd...)+',$_SERVER["HTTP_USER_AGENT"])

Wtedy przez dluzszy czas ten skrypt bedzie efektywny, bo gdy sprawdzamy pełny tekst, a po pewnym czasie bot przedstawi sie ze zmienionym chodz jednym znakiem to skrypt go juz nie wykryje.

Mnie interesuje identyfikacja spambotow typu harvester (żniwiarki adresow e-mail). Gdzie moge znalezc liste takich botów?

Gdy bym tak zrobil pulapke dla spambotow kierujac je na jedna strone, ktora by pracowala w petli karmiac ich falszywymi adresami email (majac przy tym satysfakcje ze uprzykrzam zycie spamerom) to czy duzo by mi takie boty zjadły transferu? czy lepiej przekierowac je od razu na specjalne strony juz istniejace w necie np www.spampoison.com ?

Edytowane przez yavaho

.

Odnośnik do komentarza
Udostępnij na innych stronach

Przyłączam się do tej prośby

Myślę, że kazdy z nas ma własne listy.

Podam to co mam u siebie

aktualizacja na dzień 17.07.2006 - sposób instalacji podany we wcześniejszych postach.

<?
$ua = $_SERVER[HTTP_USER_AGENT]; 
$ip = $_SERVER[REMOTE_ADDR]; 
$ur = $_SERVER[REQUEST_URI];
$do = $_SERVER[SERVER_NAME];

if (eregi("converacrawler", $ua)
|| eregi("deltascan", $ua)
|| eregi("easydl", $ua)
|| eregi("e-SocietyRobot", $ua)
|| eregi("emeraldshield", $ua)
|| eregi("exactseek", $ua)
|| eregi("findlinks", $ua)
|| eregi("freshcrawler", $ua)
|| eregi("gigabot", $ua)
|| eregi("ia_archiver", $ua)
|| eregi("ichiro", $ua)
|| eregi("irlbot", $ua)
|| eregi("jeeves", $ua)
|| eregi("jyxobot", $ua)
|| eregi("korniki", $ua)
|| eregi("linkwalker", $ua)
|| eregi("mj12bot", $ua)
|| eregi("netexperts", $ua)
|| eregi("omniexplorer", $ua)
|| eregi("psbot", $ua)
|| eregi("python", $ua)
|| eregi("psycheclone", $ua)
|| eregi("shim-crawler", $ua)
|| eregi("societyrobot", $ua)
|| eregi("sproose", $ua)
|| eregi("surveybot", $ua) 
|| eregi("turingos", $ua)
|| eregi("wanadoo", $ua)
|| eregi("wget", $ua)
|| eregi("zongbot", $ua)
|| eregi("zoomspider", $ua)
|| eregi("zyborg", $ua)



// blokada po url
|| eregi("zoom_highlight", $ur)



// blokowanie zakresow IP
// omniexplorer
|| blozakres("64.71.131",$ip)
|| blozakres("65.19.134",$ip)
|| blozakres("65.19.150",$ip)
|| blozakres("65.19.169",$ip)
|| blozakres("66.246",$ip)
|| blozakres("72.36.254",$ip)

// niechciane IP

|| $ip == "38.100.225.3"
|| $ip == "65.19.150.241"
|| $ip == "65.214.44.54"
|| $ip == "65.75.166.200"
|| $ip == "69.57.132.54"
|| $ip == "72.36.254.178"
|| $ip == "80.51.198.186"
|| $ip == "81.190.43.231"
|| $ip == "133.163.194.50"
|| $ip == "195.113.214.202"
|| $ip == "209.123.8.173"
|| $ip == "220.181.26.69"
|| $ip == "211.120.209.3" 



// spamerzy
|| $ip == "62.129.228.19"
|| $ip == "208.66.195.8" 



) { 
// wysylam podejrzanego robota w kosmos np. za pomocą header("location: https:// odchlankosmosu.commm"); 
// lub poprzez $ip do nich samych...
header("HTTP/1.1 301 Moved Permanently"); 
header("location: https://".$ip);
header("Connection: close");
exit;
}
function blozakres($zakres,$ip_,$zakresdo=""){
$ip_od = explode(".",$zakres);
$ip_we = explode(".",$ip_);
if (!$zakresdo) {
	$zakresdo = $zakres;
}
$ip_do = explode(".",$zakresdo);

for( $x = 0; $x < 4; $x++ ){
$ip_od[$x] = sprintf("%03d",$ip_od[$x]);
$ip_we[$x] = sprintf("%03d",$ip_we[$x]);
if (!$ip_do[$x]) {
	$ip_do[$x]=255;
}
$ip_do[$x] = sprintf("%03d",$ip_do[$x]);
}
$zakres   = implode("",$ip_od) + 0;
$ip_	  = implode("",$ip_we) + 0;
$zakresdo = implode("",$ip_do) + 0;
return (($ip_ >= $zakres) && ($ip_ <= $zakresdo));
}
?>

Odnośnik do komentarza
Udostępnij na innych stronach

  • 2 tygodnie później...

Witam;

zabawie sie w kreta, :)

Minal juz rok od Waszych postow i mam takie pytanie/prosbe, jako ze jestescie specami w tych sprawach.

Czy moglibyscie podac jakies aktualne boty, IP ktore nie sa mile widziane dla stron o niewielkim transferze ? Oraz byloby milo znac jakies aktualne boty przeszukujace strony szukajac adresow email znajdujacych sie na naszych stronach.

Domyslam sie ze powstaja w zastraszajacym tempie, a mi zżarlo ostatnio 12 GB wiec musze jakos sie chronic.

Pozdrawiam

Niedrogie wpisy w płatnych, zadbanych, długowiecznych katalogach (hurtem taniej - pisać na PW):

Odnośnik do komentarza
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności