Nowy robot

Długowłosa pantera · 4 Lipca 2007

Ruszyły solidne testy nowego robota wyszukiwarki stron. Nowy pająk o kryptonimie Gepa analizuje HTML oraz CSS łącznie z plikami dołączanymi oraz zaawansowanymi selektorami.

Robot nie czyta pliku robots.txt, ale można zapobiec indeksowaniu strony za pomocą meta robots lub spiders z ustawionym noindex lub za pomocą parametru rel="nofollow" w linkach do podstrony (nofollow w linkach działa tylko dla linków wewnątrz domeny).

Wyszukiwarka nie tworzy rankingu na podstawie BL.

Więcej o pająku Gepa oraz innych projektach można się dowiedzieć "zjadając" Precelka.

afek · 9 Lipca 2007

Lepiej żeby jednak czytał robots.txt. Ja nie umieszczam w meta a jak zobaczę że mi mieli stronę a nie czyta robots.txt to od razu zbanuję. Sądzę ze nie tylko ja.

Długowłosa pantera · 10 Lipca 2007

Lepiej żeby jednak czytał robots.txt. Ja nie umieszczam w meta a jak zobaczę że mi mieli stronę a nie czyta robots.txt to od razu zbanuję. Sądzę ze nie tylko ja.

Tyle, że uderzenie w robots.txt to dobry sposób na wykrycie robota i wysłanie mu lipy. Robot nie zawsze przedstawia się jako Gepa (również jako standardowa Mozilla Firefox) i docelowo będzie zainstalowany na Neostradzie z możliwością łączenia się przez proxy (np. JAP) (zbanowanie robota po ip=zbanowanie minimum 65533 (bez robota) użytkowników polskiego internetu. Nie martw się robot nie jest transferożerny - posiada limit czasowy na przeszukiwanie strony oraz limit transferowy (po wykorzystaniu transferu przyznanego dla jednej strony łącznie z podstronami przestaje żądać kolejnych plików.

Mało go interesują podstrony dostępne po 4 kliknięciu licząc od strony głównej.

Poza tym nie rozumiem dlaczego robot nie mógłby wejść na stronę (która nie jest wywoływana formularzem), skoro zwykły user może tam wejść.

Użyj wtedy noindex lub w linku/nagłówku strony nofollow.

Moje stanowisko stąd, że zawsze ktoś może użyć mod_rewrite dla pliku robots.txt do manipulacji przesyłaną zawartością (zapamiętywanie IP i przesyłanie innej zawartości strony głównej i bliskich podstron).

Poza tym 1-2MB na miesiąc (albo więcej niż miesiąc - robota wyprodukowano w ilości egzemplarzy: 1 :-) ) to chyba nieduży transfer. Jeżeli chcesz banuj, najwyraźniej nie masz nic sensownego do pokazania w wynikach wyszukiwania, a jednym z celów wyszukiwarki jest umożliwienie internautom dotarcia do stron niepozycjonowanych (z braku czasu/pieniędzy) mających niski ranking w goog, które wcale nie są do niczego.

afek · 10 Lipca 2007

Chodziło mi o całkiem inną sytuację niż przedstawiłeś w tej wiadomości.

Wytłumacz mi dlaczego akurat wyjątkowo dla Twojej wyszukiwarki mam zmieniać powiedzmy kod "iluśtam" stron? Co w wypadku gdy nie chcę wpuścić tylko Twojego robota?

To że ktoś może manipulować robots.txt to według mnie nie jest odpowiedź dlaczego zmuszasz mnie abym wpuścił Twojego robota.

Długowłosa pantera · 11 Lipca 2007

Chodziło mi o całkiem inną sytuację niż przedstawiłeś w tej wiadomości.
Wytłumacz mi dlaczego akurat wyjątkowo dla Twojej wyszukiwarki mam zmieniać powiedzmy kod "iluśtam" stron? Co w wypadku gdy nie chcę wpuścić tylko Twojego robota?

To że ktoś może manipulować robots.txt to według mnie nie jest odpowiedź dlaczego zmuszasz mnie abym wpuścił Twojego robota.

Dobra, dla osób nie chcącym, aby byli tylko w mojej wyszukiwarce wprogramuję meta name/http-equiv="Gepa" content="noindex". Umieszczenie gdziekolwiek takiego meta (najlepiej na stronie głównej - index.*) zakończy pobieranie plików i zapobiegnie zaindeksowaniu całej witryny.

Transfer zostanie ograniczony do 1 pliku (nie zostanie pobrany nawet CSS) w przypadku umieszczenia mety na głównej stronie. Dodatkowo okres ponownego skanu dla tej strony zostanie wydłużony z miesiąca do dwóch.

Mój robot zawsze zaczyna przeszukiwanie od "/" więc wystarczy umieścić jeden wpis na stronie głównej.

Mam nadzieję, że takie rozwiązanie jest satysfakcjonujące.

Moje podejście do robots.txt (kiedyś obsługiwałem ten plik) bierze się stąd, że niektóre strony stosują black SEO (zwykłemu SEO nie mam nic do zarzucenia), zapisują IP robota, a później go spamują - serwer podsyła inną treść wyszukiwarce.

PS. Jestem przeciwnikiem spamu (ale nie pozycjonowania ).

afek · 11 Lipca 2007

Pewnie się czepiam ale jak dla mnie jest to rozwiązanie tylko cząstkowe ponieważ jeżeli mam na przykład 500 stron to marne są szanse żeby mi się chciało edytować dla wszystkich metatagi.

Pozdrawiam.

P.S.

W sumie czepiam się z zasady (nie bierz do siebie) bo sam nie będę miał nic przeciwko Twojej szukajce.

Irek · 11 Lipca 2007

Wpuszczasz robota na strony internetowe i chcesz żeby te strony dostosowały się do niego?

Moje stanowisko stąd, że zawsze ktoś może użyć mod_rewrite dla pliku robots.txt do manipulacji przesyłaną zawartością

W PHP nie można manipulować "przesyłaną zawartością"?

Robot nie zawsze przedstawia się jako Gepa (również jako standardowa Mozilla Firefox) i docelowo będzie zainstalowany na Neostradzie z możliwością łączenia się przez proxy (np. JAP)

Tym bardziej nie rozumiem tego niby zabezpieczenia poprzez pominięcie robots.txt.

Długowłosa pantera · 12 Lipca 2007

Pewnie się czepiam ale jak dla mnie jest to rozwiązanie tylko cząstkowe ponieważ jeżeli mam na przykład 500 stron to marne są szanse żeby mi się chciało edytować dla wszystkich metatagi.
Pozdrawiam.

P.S.

W sumie czepiam się z zasady (nie bierz do siebie) bo sam nie będę miał nic przeciwko Twojej szukajce.

Nie żartuj że masz 500 domen. Poza tym w takim przypadku musiałbyś umieścić 500 plików robots.txt - nakład pracy równy dopisaniu 500 metatagów. w tej wyszukiwarce jedna strona = jedna domena .

Sprawę 500 stron w rozumieniu 500 (pod)domen zostawiam bez komentarza - chyba rekordzista.

Długowłosa pantera · 12 Lipca 2007

Wpuszczasz robota na strony internetowe i chcesz żeby te strony dostosowały się do niego?
Moje stanowisko stąd, że zawsze ktoś może użyć mod_rewrite dla pliku robots.txt do manipulacji przesyłaną zawartością
W PHP nie można manipulować "przesyłaną zawartością"?
Robot nie zawsze przedstawia się jako Gepa (również jako standardowa Mozilla Firefox) i docelowo będzie zainstalowany na Neostradzie z możliwością łączenia się przez proxy (np. JAP)
Tym bardziej nie rozumiem tego niby zabezpieczenia poprzez pominięcie robots.txt.

Bez komentarza.

Wpisz sobie w .htaccess wpis:

RewriteRule ^robots\.txt$ robots.php

A w pliku robots.php:

$ip=$_SERVER['REMOTE_ADDR'];

// zapisz ip do jakiejś tabeli w mysql

W innych plikach .php:

$robots=zapytaj_sql('select ip from jakas_tabela_z_ip where ip=\''.mysql_escape_string($_SERVER['REMOTE_ADDR']).'\'');
// funkcja zapytaj_sql zwraca dane w postaci tablicy dwuwymiarowej wiersz x kolumna.

if($robots)
{
 oszukaj_wyszukiwarke(); // oferty pracy ble ble ble oferty pracy itd.
 exit
}

// tutaj normalna zawartość strony dla klienta - Promocja specjalna, Kup ....

W ten sposób strona dla wszystkich robotów żądających robots.txt (w tym goog) będzie widoczna na hasło "oferty pracy", ponieważ IP robota zostało zapisane do zbioru klientów (wyszukiwarek), których trzeba oszukiwać (wysoka pozycja na słowa oferty pracy). Zaś zwykła mozilla nie żąda robots.txt - ip klienta nie ma w bazie więc na standardowe wyjście php zwracana jest strona będąca reklamą (spamem lub oszustwem). Wyszukiwarki rzadko dysponują większą ilością ip niż 254 (0 i 255 zarezerwowane), tak więc z czasem wszystkie ip wylądują w bazie i zaspamowanie wyników wyszukiwania kompletne.

Tak więc w celu ochrony wyników wyszukiwania przed w/w manipulacją żądam tylko pliki standardowo żądane przez Moz. Index.php (jako "/") żądany jest standardowo i wpis

<meta name="Gepa" content="noindex">

zapobiegnie dalszemu przeglądaniu strony przez robota.

PS. To rozwiązanie ktoś już stosował do oszukiwania wyszukiwarek (niestety skutecznego oszukiwania) lecz adresu domeny już nie pamiętam.

Irek · 12 Lipca 2007

Nie pomyślałem o tym że można mieć wymierne korzyści z oszukiwania Twojego robota, co innego google.

Skoro robot ma się przedstawiać jako "Gepa" to rzeczywiście bez pliku robots.txt nie da się go zidentyfikować.

Skoro pominięcie robots.txt jest tak dobrym zabezpieczeniem to dlaczego robot ma się też przedstawiać jako Mozilla i chodzić z różnych IP? Czy dzięki temu nie da się wykryć oszustwa za pomocą robots.txt?

Widzę że jeszcze sporo muszę się nauczyć. Dla mnie koniec tematu.

Xann · 12 Lipca 2007

Kiedy bedzie nowa wyszukiwarka aktywna ? Przydał by się jakiś przemiolony nowy kontent

Piękna symbioza, wyszukiwarka zbiera odnas treś, która bedzie zassysany z wyszukiwarki na spamy i kółko się zamyka

afek · 12 Lipca 2007

Nie żartuj że masz 500 domen. Poza tym w takim przypadku musiałbyś umieścić 500 plików robots.txt - nakład pracy równy dopisaniu 500 metatagów. w tej wyszukiwarce jedna strona = jedna domena .
Sprawę 500 stron w rozumieniu 500 (pod)domen zostawiam bez komentarza - chyba rekordzista.

Owszem, dla mnie strona = również nowa domena. Takie to dziwne dla Ciebie że ktoś może mieć tyle domen? Znam osoby które mają ich "diametralnie" więcej...

Hehe. A jednak się troszkę mylisz z ilością pracy przy robots.txt i aktualizowaniem metatagów. W moim wypadku większość stron ma identycznie wyglądający plik robots.txt. Za to nie we wszystkich stronach/serwisach korzystam z jednego rodzaju skryptu zarządzającego treścią i robota zamiast 10 minut zajmie mi tych minut jakieś 40 razy więcej. A co jeszcze lepsze do robots.txt można użyć skryptu który sam wysyła na wszystkie serwery po zmodyfikowaniu danego pliku.

Długowłosa pantera · 13 Lipca 2007

Nie pomyślałem o tym że można mieć wymierne korzyści z oszukiwania Twojego robota, co innego google.
Skoro robot ma się przedstawiać jako "Gepa" to rzeczywiście bez pliku robots.txt nie da się go zidentyfikować.

Skoro pominięcie robots.txt jest tak dobrym zabezpieczeniem to dlaczego robot ma się też przedstawiać jako Mozilla i chodzić z różnych IP? Czy dzięki temu nie da się wykryć oszustwa za pomocą robots.txt?

Widzę że jeszcze sporo muszę się nauczyć. Dla mnie koniec tematu.

Skoro pominięcie robots.txt jest tak dobrym zabezpieczeniem to dlaczego robot ma się też przedstawiać jako Mozilla i chodzić z różnych IP? Czy dzięki temu nie da się wykryć oszustwa za pomocą robots.txt?

Widzę że jeszcze sporo muszę się nauczyć. Dla mnie koniec tematu.

Dzięki temu nie da się wykryć oszustwa robionego za pomocą robots.txt, ponieważ, jak widać w powyższym kodzie każde IP udeżające w plik robots.txt trafia na listę klientów do oszukiwania.

Każda osoba przeglądająca logi skapnie się, że to wyszukiwarka, a raczej nie będzie oszukiwać po Referer.

Poza tym, każdy wchodząc mozillą może przedstawiać się jako "Gepa". Służy do tego dodatek o nazwie "User-Agent Switcher".

Poza tym wspomniałem, że robot przedstawia się raz jako mozilla, raz jako Gepa, zaś stojąc na neostradzie, gdzie dwie ostatnie grupy cyferek w IP są różne po każdym uruchomieniu kompa zabezpieczy przed oszustwami za pomocą UA. Przecież jak wwali ktoś ip na stałe do bazy danych, to sami użytkownicy neostrady będa zgłaszać spam, gdzie się tylko da (zaczną pewnie od google, bo wynik szukania będzie inny od tego co zobaczą na ekranie), więc takie działanie będzie nierentowne z uwagi na zbanowanie w innych wyszukiwarkach.

Co do robots.txt, ponieważ musi być żądany jako pierwszy to istnieje niebezpieczeństwo, że ktoś ustawi oszukiwanie klienta na godzinę od czasu żądania robots.txt.

Co do UA to zmienię, aby robot przedstawiał się jako standardowa Moz, przemielił stronę i na samym końcu zażądał "/" przedstawiając się kryptonimem zawierającym wpis "Gepa" oraz "Hidee.org", zaś do nagłówka Referer, przy żądaniu "/" będzie wstawiał losowo wybraną domenę z tych, które ma już w bazie, ponieważ na chwilę obecną robot poprawnie obsługuje ten nagłówek (jako jeden z nielicznych) lecz zawsze do żądania "/" używa Referer: https://www.hidee.org/, co również umożliwia oszukiwanie tej wyszukiwarki.

Kiedy bedzie nowa wyszukiwarka aktywna ? Przydał by się jakiś przemiolony nowy kontent smile.gif
Piękna symbioza, wyszukiwarka zbiera odnas treś, która bedzie zassysany z wyszukiwarki na spamy smile.gif i kółko się zamyka

Wyszukiwarka będzie czynna od sierpnia (nie wiem którego dnia). Odradzam takie spamy z uwagi, że opisy (fragmenty) stron są ujęte pomiędzy znacznikami <a>. Tak więc prezentuje ona same linki i stosuje w nich tekst ukryty (SERP'y noindex, nofollow z uwagi na niedostanie bana od google) . Poza tym sam lubię zgłaszać spam (ponieważ go nie cierpię). Będzie istniała także możliwość zgłaszania mi spamu (przycisk w każdym "okienku" stanowiącym jedną pozycję wyników wyszukiwania). Oczywiście podczas zgłaszania spamu wymagane przepisanie kodu z obrazka.

Polecam Tobie coś innego - będzie dostępna opcja wyszukiwania "farm linków" w kolejności od najbardziej tematycznej. Wykorzystaj to do pozycjonowania, nikt Ci nic za to nie zrobi (czyste SEO). Ta opcja może jednak być dostępna od września. Wykrywane jako farmy są również niektóre preselle oraz strony stworzone specjalnie pod promowanie innych stron.

Owszem, dla mnie strona = również nowa domena. Takie to dziwne dla Ciebie że ktoś może mieć tyle domen? Znam osoby które mają ich "diametralnie" więcej...

Skoro tak mówisz to Ci wierzę, ale proszę o jakiś przykładzik (umiem korzystać z whois.*).

Podaj na PW jeżeli nie chcesz zaśmiecać forum.

Daniel Kędzierski · 18 Lipca 2007

ja myśle że xannowi chodziło o coś innego .

Że skoro Ty będziesz ssać kontent z różnych strony, nowy układ to zaraz podczepi się kilku seomasterów i possa wyniki od Ciebie by sobie zaindeksować świeży kontent.

Czyli na Twoją wyszukiwarke zaraz wjedzie 50 innych wyszukiwarek by sparsować co tam masz ciekawego.

Zgłosisz do google - czy sądzisz że osoby które przeparsują ci wyszukiwarkę przejmują się banem/filtrem ? dostają go regularnie co 2-4 tygodnie na domene - mając już kontent poprostu zmieniają grafikę.

Problem będzie innej natury - jak wiele osób zacznie ssać ci kontent to po pewnym czasie ban poleci na wykrycie danej formy kontentu więc i polecą domeny podobne do .... (wiem to z doświadczenia).

Tak więc Tomkowi chodziło o to że fajnie iż powstaje jakaś ssawka która ssa od innych bo będzie można ssać od niej na takiej samej zasadzie czyli bez robot.txt z UA mozilli - oczywiście nikt żalu mieć nie może, my ssamy kontent to nam ssają kontent.

Ja się do tego przyzwyczaiłem i jak MMP mi się dopada do szukarek to zawsze mu pisze napisz do mnie to ci dam baze bo parsowanie zjada mi po 5 GB jednorazowo.

Pytanie tylko czy masz na tyle transferu bo jak przeleci ci wyszukiwarkę 50 userów po 5-10 GB to może być ciężko.

Pozdrawiam

Mariusz

Długowłosa pantera · 19 Lipca 2007

(...)
Ja się do tego przyzwyczaiłem i jak MMP mi się dopada do szukarek to zawsze mu pisze napisz do mnie to ci dam baze bo parsowanie zjada mi po 5 GB jednorazowo.

Pytanie tylko czy masz na tyle transferu bo jak przeleci ci wyszukiwarkę 50 userów po 5-10 GB to może być ciężko.

Pozdrawiam

Mariusz

No to widzę, że będę musiał się zabezpieczyć przed użytkownikami megazasysaczami (lecz nie zasysaczami). Na stronach z wynikami będę miał noindex, nofollow, tak więc moja domena raczaj nie poleci, bo treść nie będzie zaindeksowana. A to co zrobisz (zrobicie) z wynikami wyszukiwania to Twoja sprawa. Zakaz kopiowania treści (chyba, że autor wpisu wyrazi inaczej) będzie dotyczył tylko kataloportalu piekoszow.eu (Jeszcze go nie ma ale będzie - prawdopodobnie po tej niedzieli, chyba, że remont przeszkodzi).

Aby taka strona nie trafiła tylko do mojej wyszukiwarki, bo zostanie automatycznie zbanowana, a jeżeli coś to nie ma tam dużej ilości szukanego słowa, tak więc raczej będzie daleko w tyle.

PS. Wyniki po zassaniu nadają się jak znalazł (po ominięciu znaczników <a>) na dużą ilość kontentu (1 opis to maksimum 1024 znaki, zaś średnio około 700). Wyniki prezentują początkowe fragmenty strony po ominięciu elementów tworzących layout (menu, stały wstęp itp.), tak więc powtórzony z innej strony kontent to nie więcej niż 20% (lecz należy pamiętać, że są to kopie fragmentów innych stron - do 10 na 1 podstronie). Stąd morał, że kiedyś goog może się zabezpieczyć przed tym.

Zaloguj się

Nowy robot

Rekomendowane odpowiedzi

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Zarchiwizowany

Ostatnio przeglądający 0 użytkowników

Polecamy

Współpracują z nami

Powiadomienie o plikach cookie