Skocz do zawartości

Szpiedzy Google?


jez

Rekomendowane odpowiedzi

Witajcie,

Ostatnio spostrzegłem coś ciekawego. Wykonałem stronę, dodałem śladowe ilości linków (ze 2-3) i odczekałem 2 tygodnie. Stronę odwiedziło kilku userów i roboty:

Gigabot/2.0; https://www.gigablast.com/spider.html, 66.154.103.123, www.gigablast.com

psbot/0.1 (+https://www.picsearch.com/bot.html), 217.212.224.165, spider15.picsearch.com

psbot/0.1 (+https://www.picsearch.com/bot.html), 217.212.224.165, spider15.picsearch.com

ia_archiver, 209.237.238.224, 209.237.238.224

msnbot/1.0 (+https://search.msn.com/msnbot.htm), 207.46.98.52, msnbot.msn.com

msnbot/1.0 (+https://search.msn.com/msnbot.htm), 207.46.98.54, msnbot.msn.com

Gigabot/2.0/gigablast.com/spider.html, 66.154.103.123, www.gigablast.com

msnbot/1.0 (+https://search.msn.com/msnbot.htm), 207.46.98.54, msnbot.msn.com

... natomiast po wspomnianych 2 tygodniach, strona pojawiła się w indeksie Google z właściwym opisem i pełną kopią. Mam statystyki wszystkich odsłon (dosłownie paręnaście odsłon, z listy powyżej odfiltrowałem ewidentnych userów i siebie).

Wniosek - Google musi mieć jakiś związek z co najmniej jednym z powyższych (wymiana indeksami?). Dodam że nie używałem IE ani FF z toolbarem Google do otwierania tej strony (odpadają ewentualne googlowskie trojany).

Coś o tym wiecie?

Pozdrawiam, J.

Odnośnik do komentarza
Udostępnij na innych stronach

To tak samo jak się mówi że DMOZ nie jest powiązany z Google :) ... bo nie jest

tylko kopia DMOZ jest w katalogu Google :D

Osobiście myślę że tych powiązań jest więcej, co wydaje się dobrym rozwiązaniem na wszelkiego rodzaju praktyki cloakingu, odciąża roboty ograniczając je do pobrania zawartości innych spiderów z jakichś mniej znanych, lub wydzielonych źródeł, a według zasad na których opiera się Google - niskie koszty, najprościej jak się da, optymalizacja dla dużych plików ( GFS ). to by całkiem pasowało.

druga sprawa to :

dodałem śladowe ilości linków (ze 2-3)

ale chyba nie na stronie głównej Allegro ? :)

serce.gifKocham Cię | Życie po Ślubie | Psychopatologia

Popełniłeś tylko jeden błąd ... jaki ? ... RAMBO !

Odnośnik do komentarza
Udostępnij na innych stronach

Według tego schamatu, Google pobiera dane tylko z katalogu DMOZ.

Ciężko mi uwierzyć w taką wymianę indeksów, jednak nie twierdzę, że jest to niemożliwe.

Logi masz z całego czasu, odkąd strona istnieje? Googlebotów szukałeś po UA, czy IP?

Może któryś z userów miał szpiegowskiego toolbara?:(

Ale i tak Googlebot musiałby wejść na stronę, żeby ją pobrać, sprawdzić robots.txt.

Autor postu nie ponosi żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania zawartych w nim informacji.

Odnośnik do komentarza
Udostępnij na innych stronach

Jezu masz to co ja, googlebot nigdy nie odwiedzil domeny glownej a znalazla sie w indkesie po 3 dniach, fakt ze do niej linkowalem, ale nie zmienia to faktu ze sam UA googlebot nigdy nie odwiedzil strony glownej.

Monitorowalem logi, zreszta pisalem o tym dziwactwie wczoraj w dziale google co drugie to dalej leci mi na slowa 4 literowe :( zakonczyl 3, widocznie 4 literowych slow mialem wiecej, wiec poczekam tydzien az zacznie indeksowac 5 :P, wiec z frazami przyjdzie mi czekac dluzej

Odnośnik do komentarza
Udostępnij na innych stronach

Raczej bym obstawiał, że Google pobrał stronę z innym UA.

Możecie przeszukać logi pod kątem adresów IP Googlebotów? Listy IP są, wystarczy prosty skrypt.

Autor postu nie ponosi żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania zawartych w nim informacji.

Odnośnik do komentarza
Udostępnij na innych stronach

Rafal zadna klasa adresowa google nie pobrala adresu glownego.

Sa pobrania z google lecz bez domeny glownej tylko podstrony.

Fakt ze lazil ale tez nie po adresie glownym jakis bot bez UA, z podobnym poczatkiem klasy, lecz nie robilem who is a jedynie zapodalem tracert ktory wylecial w kosmos poza Polska.

Tak czy tak irytujace jest jak on indkesuje :)

To np nowa domena w sumie jeszcze nawet dobrze nie zrobiona i nie podlinkowana praktycznie wcale.

Jedynie w takim tam moim systemiku:

Od 4 czy google ja indkesuje makabrycznie od 2 literowek teraz jest na 4 :)

mozna zobaczyc sobie tutaj

https://www.szukajtu.eu/searchbot_log.txt

zaczyna sie od 30 wiec tylko 3-4 dni logow bo tyle co zaistniala ale jak dla mnie to glupota skoro daje inne linki do podstron a on sobie indkesuje inne podstrony bo maja mniej literek ;)

Odnośnik do komentarza
Udostępnij na innych stronach

Można by zrobić test.

Zrobić normalną stronke lecz stronie glownej dać

$sql = 'SELECT * FROM CODE';
$r = mysql_query( $sql );
$row = mysql_fetch_array( $r );
echo $row[ 'a' ] + 1;
mysql_query( 'INSERT INTO CODE SET a = a + 1, serv = "'.serialize($_SERVER).'"');

I sprawdzić co nas zdardziło :)

stopka usunieta z wpoodu wirusa na stronie docelowej

Odnośnik do komentarza
Udostępnij na innych stronach

Logi masz z całego czasu, odkąd strona istnieje? Googlebotów szukałeś po UA, czy IP?

Rafał, nie ma co mówić o logach czy ich statystycznej analizie. Strona była odczytana może paręnaście razy, z czego 10 razy to byłem ja a reszta to to, co przekleiłem powyżej.

Ciężko mi uwierzyć w taką wymianę indeksów, jednak nie twierdzę, że jest to niemożliwe.

Fakt, nie mówiło się o tym wcześniej.

Z drugiej strony, to trzyma się kupy. Bo po co kilka razy tworzyć i eksploatować mechanizm który będzie się łączył z miliardami stron na milionach serwerów, skoro można stworzyć raz i zrobić kilka kopii? Jak widać, wymiana indeksów jest faktem.

Podrawiam, J.

Odnośnik do komentarza
Udostępnij na innych stronach

dokladnie, bo moze to nie wymiana rankingu a jedynie pobranych witryn.

Po co ktos ma pobierac 500 razy dana domena, jak jedynie mozna poddawac ja analizie i ustalacd ranking wg wlasnych zasad.

A co do gigabot czy jak on tam to zastanawiam sie takze jak i on znalazl moj adomene :)

Odnośnik do komentarza
Udostępnij na innych stronach

Jak widać, wymiana indeksów jest faktem

Taaa... najwyraźniej wymiana nastąpiła pomiędzy G, a Wayback Machine. 100% aktualnego indeksu jednej z moich stron pochodzi sprzed dwóch lat.

Jak długo G nie będzie miało w danym systemie kontrolnego pakietu - tak długi nie ma mowy o wymianach zasobów. Księgowy zabroni.

Odnośnik do komentarza
Udostępnij na innych stronach

Taaa... najwyraźniej wymiana nastąpiła pomiędzy G, a Wayback Machine.

Nie zrozumiałem przekazu?

100% aktualnego indeksu jednej z moich stron pochodzi sprzed dwóch lat.

Gratuluję.

Ale to nowa strona.

Co prawda 5 lat temu była tam jakaś inna :), ale treść jest nowa i była zczytana TYLKO przez roboty które wymieniłem. Treść musiała być przekazana albo przez jednego/kilka z powyższych, albo przez jakieś trojanotoolbary.

Pozdrawiam, J.

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności