Szpiedzy Google?

jez · 1 Czerwca 2006

Witajcie,

Ostatnio spostrzegłem coś ciekawego. Wykonałem stronę, dodałem śladowe ilości linków (ze 2-3) i odczekałem 2 tygodnie. Stronę odwiedziło kilku userów i roboty:

Gigabot/2.0; https://www.gigablast.com/spider.html, 66.154.103.123, www.gigablast.com
psbot/0.1 (+https://www.picsearch.com/bot.html), 217.212.224.165, spider15.picsearch.com

psbot/0.1 (+https://www.picsearch.com/bot.html), 217.212.224.165, spider15.picsearch.com

ia_archiver, 209.237.238.224, 209.237.238.224

msnbot/1.0 (+https://search.msn.com/msnbot.htm), 207.46.98.52, msnbot.msn.com

msnbot/1.0 (+https://search.msn.com/msnbot.htm), 207.46.98.54, msnbot.msn.com

Gigabot/2.0/gigablast.com/spider.html, 66.154.103.123, www.gigablast.com

msnbot/1.0 (+https://search.msn.com/msnbot.htm), 207.46.98.54, msnbot.msn.com

... natomiast po wspomnianych 2 tygodniach, strona pojawiła się w indeksie Google z właściwym opisem i pełną kopią. Mam statystyki wszystkich odsłon (dosłownie paręnaście odsłon, z listy powyżej odfiltrowałem ewidentnych userów i siebie).

Wniosek - Google musi mieć jakiś związek z co najmniej jednym z powyższych (wymiana indeksami?). Dodam że nie używałem IE ani FF z toolbarem Google do otwierania tej strony (odpadają ewentualne googlowskie trojany).

Coś o tym wiecie?

Pozdrawiam, J.

EDDY · 1 Czerwca 2006

Może któryś z userów miał szpiegowskiego toolbara?

Nie wydaje mi się, by psbot czy też gigabot miały coś wspólnego z google.

zerocool · 2 Czerwca 2006

To tak samo jak się mówi że DMOZ nie jest powiązany z Google ... bo nie jest

tylko kopia DMOZ jest w katalogu Google

Osobiście myślę że tych powiązań jest więcej, co wydaje się dobrym rozwiązaniem na wszelkiego rodzaju praktyki cloakingu, odciąża roboty ograniczając je do pobrania zawartości innych spiderów z jakichś mniej znanych, lub wydzielonych źródeł, a według zasad na których opiera się Google - niskie koszty, najprościej jak się da, optymalizacja dla dużych plików ( GFS ). to by całkiem pasowało.

druga sprawa to :

dodałem śladowe ilości linków (ze 2-3)

ale chyba nie na stronie głównej Allegro ?

mkr · 2 Czerwca 2006

martin kiedyś pisał o : https://www.bruceclay.com/project.swf

nie wiem na ile prawdzie, aktualne i pasujące do sytuacji

Rafal · 2 Czerwca 2006

Według tego schamatu, Google pobiera dane tylko z katalogu DMOZ.

Ciężko mi uwierzyć w taką wymianę indeksów, jednak nie twierdzę, że jest to niemożliwe.

Logi masz z całego czasu, odkąd strona istnieje? Googlebotów szukałeś po UA, czy IP?

Może któryś z userów miał szpiegowskiego toolbara?

Ale i tak Googlebot musiałby wejść na stronę, żeby ją pobrać, sprawdzić robots.txt.

Daniel Kędzierski · 2 Czerwca 2006

Jezu masz to co ja, googlebot nigdy nie odwiedzil domeny glownej a znalazla sie w indkesie po 3 dniach, fakt ze do niej linkowalem, ale nie zmienia to faktu ze sam UA googlebot nigdy nie odwiedzil strony glownej.

Monitorowalem logi, zreszta pisalem o tym dziwactwie wczoraj w dziale google co drugie to dalej leci mi na slowa 4 literowe zakonczyl 3, widocznie 4 literowych slow mialem wiecej, wiec poczekam tydzien az zacznie indeksowac 5 , wiec z frazami przyjdzie mi czekac dluzej

EDDY · 2 Czerwca 2006

Ale i tak Googlebot musiałby wejść na stronę, żeby ją pobrać, sprawdzić robots.txt.

Racja, nie pomyślałem o tym.

Może faktycznie G. nas szpieguje?

Rafal · 2 Czerwca 2006

Raczej bym obstawiał, że Google pobrał stronę z innym UA.

Możecie przeszukać logi pod kątem adresów IP Googlebotów? Listy IP są, wystarczy prosty skrypt.

Daniel Kędzierski · 2 Czerwca 2006

Rafal zadna klasa adresowa google nie pobrala adresu glownego.

Sa pobrania z google lecz bez domeny glownej tylko podstrony.

Fakt ze lazil ale tez nie po adresie glownym jakis bot bez UA, z podobnym poczatkiem klasy, lecz nie robilem who is a jedynie zapodalem tracert ktory wylecial w kosmos poza Polska.

Tak czy tak irytujace jest jak on indkesuje

To np nowa domena w sumie jeszcze nawet dobrze nie zrobiona i nie podlinkowana praktycznie wcale.

Jedynie w takim tam moim systemiku:

Od 4 czy google ja indkesuje makabrycznie od 2 literowek teraz jest na 4

mozna zobaczyc sobie tutaj

https://www.szukajtu.eu/searchbot_log.txt

zaczyna sie od 30 wiec tylko 3-4 dni logow bo tyle co zaistniala ale jak dla mnie to glupota skoro daje inne linki do podstron a on sobie indkesuje inne podstrony bo maja mniej literek

MMP · 2 Czerwca 2006

Można by zrobić test.

Zrobić normalną stronke lecz stronie glownej dać

$sql = 'SELECT * FROM CODE';
$r = mysql_query( $sql );
$row = mysql_fetch_array( $r );
echo $row[ 'a' ] + 1;
mysql_query( 'INSERT INTO CODE SET a = a + 1, serv = "'.serialize($_SERVER).'"');

I sprawdzić co nas zdardziło

jez · 2 Czerwca 2006

Logi masz z całego czasu, odkąd strona istnieje? Googlebotów szukałeś po UA, czy IP?

Rafał, nie ma co mówić o logach czy ich statystycznej analizie. Strona była odczytana może paręnaście razy, z czego 10 razy to byłem ja a reszta to to, co przekleiłem powyżej.

Ciężko mi uwierzyć w taką wymianę indeksów, jednak nie twierdzę, że jest to niemożliwe.

Fakt, nie mówiło się o tym wcześniej.

Z drugiej strony, to trzyma się kupy. Bo po co kilka razy tworzyć i eksploatować mechanizm który będzie się łączył z miliardami stron na milionach serwerów, skoro można stworzyć raz i zrobić kilka kopii? Jak widać, wymiana indeksów jest faktem.

Podrawiam, J.

Daniel Kędzierski · 2 Czerwca 2006

dokladnie, bo moze to nie wymiana rankingu a jedynie pobranych witryn.

Po co ktos ma pobierac 500 razy dana domena, jak jedynie mozna poddawac ja analizie i ustalacd ranking wg wlasnych zasad.

A co do gigabot czy jak on tam to zastanawiam sie takze jak i on znalazl moj adomene

mb · 2 Czerwca 2006

wymiana danych napewno jest miedzy googlowymi botami (czyli mediaparters <-> googlebot). Swoja droga sprawdzales czy strona zaindexowane przez gigablasta odpowiadaja tym ktore znajduja sie w google ?

graff · 2 Czerwca 2006

Jak widać, wymiana indeksów jest faktem

Taaa... najwyraźniej wymiana nastąpiła pomiędzy G, a Wayback Machine. 100% aktualnego indeksu jednej z moich stron pochodzi sprzed dwóch lat.

Jak długo G nie będzie miało w danym systemie kontrolnego pakietu - tak długi nie ma mowy o wymianach zasobów. Księgowy zabroni.

jez · 3 Czerwca 2006

Taaa... najwyraźniej wymiana nastąpiła pomiędzy G, a Wayback Machine.

Nie zrozumiałem przekazu?

100% aktualnego indeksu jednej z moich stron pochodzi sprzed dwóch lat.

Gratuluję.

Ale to nowa strona.

Co prawda 5 lat temu była tam jakaś inna , ale treść jest nowa i była zczytana TYLKO przez roboty które wymieniłem. Treść musiała być przekazana albo przez jednego/kilka z powyższych, albo przez jakieś trojanotoolbary.

Pozdrawiam, J.

Zaloguj się

Szpiedzy Google?

Rekomendowane odpowiedzi

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Zarchiwizowany

Ostatnio przeglądający 0 użytkowników

Polecamy

Współpracują z nami

Powiadomienie o plikach cookie