Skocz do zawartości

google crawler, access.log i pytanko


rork

Rekomendowane odpowiedzi

Witajcie,

Tak sobie pomyślałem, że zobaczę jak google odwiedza mój serwis i zrobiłem 'cat access.log | grep "google" > google.log'. Wyniki mnie zastanowiły:

1). Google nie odwiedza podstron katalogu imprez - tylko stronę główną oraz stronę o kontakcie

2). Indeksuje - a może tylko pobiera - sobie swf'y - co mnie zdziwiło

3). Próbuje pobrać bardzo ciekawy url: /redakcja@cjg.pl - jest i owszem mailto:redakcja@cjg.pl na każdej strone, lecz powyższe absolutnie nie - skąd u niego taki pomysł?

4). Dlaczego google nie odwiedza linków do podstron o imprezach ze strony głównej?

5). Google twierdzi że ma wersję z 22.10.2004 (kopia www.cjg.pl - i to się zgadza) - a w logu jest że crawler by ostatni raz 04.09.2004 - skąd taka rozbieżność? Czy crawler googla zachodzi z jakiejś innej domeny?

Ciekaw jestem waszej opinii ;)

https://www.cjg.pl/

- CO JEST GRANE - informator kulturalny

Odnośnik do komentarza
Udostępnij na innych stronach

1). Google nie odwiedza podstron katalogu imprez - tylko stronę główną oraz stronę o kontakcie

Wydaje mi się, że robot uciekł przerażony URL-em:

https://www.cjg.pl/c/sp/s//r//y/2004/m/10/i...ffo/romeo_julia

- uffff! #-o

2). Indeksuje - a może tylko pobiera - sobie swf'y - co mnie zdziwiło

Od jakiegoś czasu już.

3). Próbuje pobrać bardzo ciekawy url: /redakcja@cjg.pl - jest i owszem mailto:redakcja@cjg.pl na każdej strone, lecz powyższe absolutnie nie - skąd u niego taki pomysł?

Gdzieś zapomniałeś o mailto wlaśnie i powstał href="redakcja@cjg.pl".

4). Dlaczego google nie odwiedza linków do podstron o imprezach ze strony głównej?

J.w.

5). Google twierdzi że ma wersję z 22.10.2004 (kopia www.cjg.pl - i to się zgadza) - a w logu jest że crawler by ostatni raz 04.09.2004 - skąd taka rozbieżność? Czy crawler googla zachodzi z jakiejś innej domeny?

Grepnąłeś po 'google', więc może uciekły Ci wizyty z IP bez revDNS. Choć i tak powinieneś złapać po User-Agent wtedy. Hm.

Szy.

Odnośnik do komentarza
Udostępnij na innych stronach

z tym wchodzeniem i nie robieniem zapisu, to mam podobnie..

nie wiem dlaczego, ale obserwuję od dłuższego czasu podobną cechę:

dzisiaj np. google wchodzi indeksuje, jutro wchodzi nic nie robi.

Pojutrze wchodzi indeksuje, za 3 dni..

i tak w kółko..

Po co ? :]

Odnośnik do komentarza
Udostępnij na innych stronach

- ale gwóźdź :shock: dzięki - zaraz poprawię ;)

co do urla

a jak mam przekazać 8 parametrów do odpytania bazy? Poprzednio miałem w konwencji:

obecja konwencja wydaje mi się krótsza :mrgreen: Chyba, że ktoś ma inny pomysł :?:

Dzięki za pomoc

https://www.cjg.pl/

- CO JEST GRANE - informator kulturalny

Odnośnik do komentarza
Udostępnij na innych stronach

Grepnąłeś po 'google', więc może uciekły Ci wizyty z IP bez revDNS. Choć i tak powinieneś złapać po User-Agent wtedy. Hm.

Stąd druga część pytania - czy crawlery googla chodzą z IP bez revDNS'a? Czy ktoś się z tym spotkał?

Co jakiś czas pojawia mi się overload servera z IP bez revDNS'a - kilkadziesiąt tysięcy zapytań - serwer klęczy - muszę odfiltrować gostka - ale po url'ach widać jakby ssał/indeksował, a User-Agent'a nie ma ;) - Czy ktoś się z tym spoktał - zainteresowanym mogę podać ip'ka.

Analogiczna sytuacja zdarza się z serwerem lis1.adm.onet.pl - co to je?

Pozdrowionka ;)

https://www.cjg.pl/

- CO JEST GRANE - informator kulturalny

Odnośnik do komentarza
Udostępnij na innych stronach

A dlaczego musisz to przekazywać w urlu? Nie możesz mieć adresu postaci "domena/impreza/12345"?

Jedyne co miłe w Twoim adresie, to nazwy obiektów i nazwy imprez w urlu, ale według mnie - akurat tu nie ma sensu zaśmiecać w ten sposób URL.

Szy.

Odnośnik do komentarza
Udostępnij na innych stronach

Stąd druga część pytania - czy crawlery googla chodzą z IP bez revDNS'a? Czy ktoś się z tym spotkał?

Tu mają miejsce dwa procesy:

- pierwszy, to zapisanie w logu przez serwer WWW miejsca skąd przyszedł do Ciebie robot w postaci adresu IP.

- dodatkową opcją (drugim procesem), często już teraz domyślną, jest sprawdzenie przez serwer WWW czy istnieje revDNS dla danego adresu i, jeśli istnieje, zapisanie w logu właśnie revDNS zamiast IP.

I teraz - jeśli w chwili owego sprawdzenia DNS wystąpi jakikolwiek problem z DNS (padnięty któryś z serwerów po drodze, jakiś timeout, cokolwiek), to mimo istnienia revDNS, do logu zostanie zapisany tylko adres IP.

Może tak jest w Twoim przypadku.

Szy.

Odnośnik do komentarza
Udostępnij na innych stronach

Co jakiś czas pojawia mi się overload servera z IP bez revDNS'a - kilkadziesiąt tysięcy zapytań - serwer klęczy - muszę odfiltrować gostka - ale po url'ach widać jakby ssał/indeksował, a User-Agent'a nie ma ;) - Czy ktoś  się z tym spoktał - zainteresowanym mogę podać ip'ka.

Patrzyłeś w whoisie skąd to przychodzi?

Możesz podesłać, tu lub prywatnie.

Szy.

Przepraszam za takie odpowiadanie etapami, ale coś sierota jestem, zapominam co chciałem pisać ;)

Odnośnik do komentarza
Udostępnij na innych stronach

whois 217.153.57.115 - no match - jedyne co mi się udało ustalić, że podłączone przez GTS Poland.

lis1.adm.onet.pl sam się opisuje ;)

A dlaczego musisz to przekazywać w urlu? Nie możesz mieć adresu postaci "domena/impreza/12345"? 

muszę jeszcze przesłać rok, miesiąc, kategorie, zmienne pomocniczne (state rewriting via url - cookieless) tak aby user wiedział gdzie jest.

wieczorem może pokombinuję z kodowaniem.

zdrówko :mrgreen:

https://www.cjg.pl/

- CO JEST GRANE - informator kulturalny

Odnośnik do komentarza
Udostępnij na innych stronach

Tu mają miejsce dwa procesy: 

- pierwszy, to zapisanie w logu przez serwer WWW miejsca skąd przyszedł do Ciebie robot w postaci adresu IP. 

- dodatkową opcją (drugim procesem), często już teraz domyślną, jest sprawdzenie przez serwer WWW czy istnieje revDNS dla danego adresu i, jeśli istnieje, zapisanie w logu właśnie revDNS zamiast IP. 

I teraz - jeśli w chwili owego sprawdzenia DNS wystąpi jakikolwiek problem z DNS (padnięty któryś z serwerów po drodze, jakiś timeout, cokolwiek), to mimo istnienia revDNS, do logu zostanie zapisany tylko adres IP.

Jakiś czas temu wyłączyłem resolving dla apache - bowiem wolniej działał - dodatkowy lookup - teraz wiem czemu grepping nie zadziałał prawidłowo =D> i skąd te pytania :oops:

https://www.cjg.pl/

- CO JEST GRANE - informator kulturalny

Odnośnik do komentarza
Udostępnij na innych stronach

whois 217.153.57.115 - no match

szymon ~> whois -h whois.ripe.net 217.153.57.115

% This is the RIPE Whois secondary server.

% The objects are in RPSL format.

%

% Rights restricted by copyright.

% See https://www.ripe.net/db/copyright.html



inetnum:      217.153.57.112 - 217.153.57.119

netname:      ITPOLAND-9dea34c176

descr:        Connected by GTS Poland

country:      PL

admin-c:      LP1134-RIPE

tech-c:       LP1134-RIPE

status:       ASSIGNED PA

mnt-by:       AS8246-MNT

mnt-lower:    AS8246-MNT

remarks:      for spam/abuse complaints: abuse@gts.pl

changed:      registry@gts.pl 20040322

source:       RIPE



route:        217.153.0.0/16

descr:        GTS Internet Partners

origin:       AS8246

mnt-by:       AS8246-MNT

mnt-lower:    AS8246-MNT

remarks:      for spam/abuse complaints: abuse@gts.pl

changed:      registry@gts.pl 20040119

source:       RIPE



role:         LIR PL-IT

address:      GTS Poland

address:      Al. Niepodleglosci 69

address:      02-626 Warszawa

address:      Poland

phone:        +48 22 4588000

fax-no:       +48 22 4588001

remarks:      for abuse: abuse@gts.pl

e-mail:       registry@gts.pl

admin-c:      ITP3-RIPE

tech-c:       ITP3-RIPE

nic-hdl:      LP1134-RIPE

mnt-by:       AS8246-MNT

changed:      registry@gts.pl 20031217

source:       RIPE

Firma ITPoland? Nic mi nie mówi, na pewno nie wydaje się być powiązane z jakimś systemem wyszukiwawczym.

muszę jeszcze przesłać rok, miesiąc, kategorie, zmienne pomocniczne (state rewriting via url - cookieless) tak aby user wiedział gdzie jest.

Musisz? Nie możesz tego wszystkiego wyciągać z bazy?

Nie jestem programistą, nie piszę aplikacji, a jedynie je projektuję i dostosowuję, ale... i tak upieram się, że to wszystko przecież możesz wyciągnąć z bazy dla danego id. Nie-e? ;)

Tu na forum też URL nie przekazuje wszystkich id userów biorących udzial w wątku, avatarów, itp, a jedynie id dyskusji.

...? ;)

Szy.

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności