Skocz do zawartości

google crawler, access.log i pytanko


rork

Rekomendowane odpowiedzi

Musisz? Nie możesz tego wszystkiego wyciągać z bazy?

to są parametry zapytania (np podaj imprezy dla 10.2004 z kategorii spektakle itd), oraz przepisanie stanu sesji ;)

Nie jestem programistą, nie piszę aplikacji, a jedynie je projektuję i dostosowuję, ale... i tak upieram się, że to wszystko przecież możesz wyciągnąć z bazy dla danego id. Nie-e? 

Zgadza to jest w bazie. Lecz jak wspomniałem robię to na potrzeby zapisania sesji - to są parametry sesji usera, a nie chcę ich zapisywać w cookie.

Tu na forum też URL nie przekazuje wszystkich id userów biorących udzial w wątku, avatarów, itp, a jedynie id dyskusji.

Zgadza się, jednak tu masz proste (zakładam, że proste ;) ) zapytanie do bazy na zasadzie: podaj mi stronę abc wątku xyz - więc max 2 parametry + anchor NAME do wypowiedzi, a że trzymasz sesję i autentykację w cookie to dużo odpada. A że całą resztę o userach wyciągasz pośrednio z informacji o autorach wypowiedzi to nie ma potrzeby przekazywania tego przez url'a, tak sądzę :P

A propos systemów ze składowaniem/identyfikowaniem sesji a crawler'y, dajmy na to google - jak to się ma?

Czy crawler'y obsługują cookies? I jak się to ma dla rozbudowanych systemów bazodanowych z interfejsem webowym?

Pytam się bo chcę aby www.cjg.pl można było przeszukiwać za pomocą googla. Jak już uda mi się aby crawler cały serwis zaindeksował :mrgreen:

https://www.cjg.pl/

- CO JEST GRANE - informator kulturalny

Odnośnik do komentarza
Udostępnij na innych stronach

Od kliku tygodni widze robota Google bez revDNS:

whois:

~$ whois 66.249.65.236

OrgName:    Google Inc.

OrgID:      GOGL

Address:    2400 E. Bayshore Parkway

City:      Mountain View

StateProv:  CA

PostalCode: 94043

Country:    US

NetRange:  66.249.64.0 - 66.249.79.255

CIDR:      66.249.64.0/20

NetName:    GOOGLE

NetHandle:  NET-66-249-64-0-1

Parent:    NET-66-0-0-0-0

NetType:    Direct Allocation

NameServer: NS1.GOOGLE.COM

NameServer: NS2.GOOGLE.COM

Comment:

RegDate:    2004-03-05

Updated:    2004-03-05

OrgTechHandle: ZG39-ARIN

OrgTechName:  Google Inc.

OrgTechPhone:  +1-650-318-0200

OrgTechEmail:  arin-contact@google.com

# ARIN WHOIS database, last updated 2004-10-23 19:10

# Enter ? for additional hints on searching ARIN's WHOIS database.

host:

~$ host 66.249.65.236

Host 236.65.249.66.in-addr.arpa not found: 3(NXDOMAIN)

Po zachowanieu wiem ze to jest robot i ma user-agent googlebot, ale REVDNS nie ma.

Odnośnik do komentarza
Udostępnij na innych stronach

to są parametry zapytania (np podaj imprezy dla 10.2004 z kategorii spektakle itd), oraz przepisanie stanu sesji ;)

może lepszym rozwiązaniem byłoby zastosowanie innego separatora niż / - robocik może myśleć, że to jest takie wielkie zagłębienie katalogów, a podobno to ma dla niego znaczenie. Gdybyś używał - (bo _ jak widzę występuje w tych parametrach) to myślałby że to taka długa nazwa jednego pliku i może by zczytał (a dokładniej - szybciej i chętniej by zczytał).

Odnośnik do komentarza
Udostępnij na innych stronach

może lepszym rozwiązaniem byłoby zastosowanie innego separatora niż / - robocik może myśleć, że to jest takie wielkie zagłębienie katalogów, a podobno to ma dla niego znaczenie. Gdybyś używał - (bo _ jak widzę występuje w tych parametrach) to myślałby że to taka długa nazwa jednego pliku i może by zczytał (a dokładniej - szybciej i chętniej by zczytał).

tak sobie właśnie kombinuję jak uprościć te url'e jednocześnie zachowując funkcjonalność obecną, poprzednią z parametrami implicite, jak i nową, dajmy na to kodowaniem jednego argumentu przy użyciu base64 - lecz w niektórych przypadkach obawiam się że wyjdzie parametr o wiele dłuższy niż 256 znaków, choć to nie powinno być ograniczeniem...

Jak to jest z google i głębokością/szerokością/długością/HGW URI? - czy algorytm crawler'a nakłada jakieś ograniczenia na konstrukcję URI?, a jeśli tak to gdzie jest specyfikacja? Jakiś link ktoś może podrzucić...

https://www.cjg.pl/

- CO JEST GRANE - informator kulturalny

Odnośnik do komentarza
Udostępnij na innych stronach

to są parametry zapytania (np podaj imprezy dla 10.2004 z kategorii spektakle itd), oraz przepisanie stanu sesji ;)

(podkreślam, żem nie koder, więc pochlastać się w końcu nie dam za to, przy czym się upieram, ale...)

... taki sposób wyświetlania widzę po raz pierwszy, i w dalszym ciągu nic absolutnie mnie nie przekonuję, że musisz wszystkie te parametry przekazywać w URL-u.

Możesz przecież zdefiniowanie daty, rodzaju, miejsca, organizatora, itp. przeprowadzić w momencie wyświetlania listy imprez, czyż nie?

Dlaczego tutaj imprezy nie mają URL-a jak Ty?

Szy.

Odnośnik do komentarza
Udostępnij na innych stronach

ten serwis nie ma archiwum imprez dla kilku lat do tyłu, nie pozwala zobaczyć na kilka miesięcy do przodu itd - zakres czasowy jest zakodowany na stałe zakres około miesiąca - nie umożliwia swobodnego wyboru zakresu czasowego użytkownikowi (to są dwa parametry).

Faktem jest, że tam url jest o wiele czytelniejszym, lecz zawiera o wiele mniej argumentów, oraz nie ma przepisywania stanu. Cały czas będę kombinował aby osiągnąć tak prosty url :mrgreen: , nie gubiąc czytelności ogromnego katalogu.

Pozdrawiam

https://www.cjg.pl/

- CO JEST GRANE - informator kulturalny

Odnośnik do komentarza
Udostępnij na innych stronach

ten serwis nie ma archiwum imprez dla kilku lat do tyłu, nie pozwala zobaczyć na kilka miesięcy do przodu itd

Data jak data - zwykły parametr. Dla bazy nie ma różnicy czy chcesz wskazać wszystkie imprezy z 31 lutego 1912 roku ;), czy może wszystkie w filharmonii, czy może same koncerty.

Tu i tu następuje jakiś select from coś tam where coś tam i heja, zobacz - wszędzie link do imprezy jest 'czysty', juzer i seo frendli.

https://www.wirtualna.warszawa.pl/imprezy/miejsce/80001

https://www.wirtualna.warszawa.pl/imprezy/klasyczny/

itp.

Z szacunkiem i uśmiechem: upieram się, że niewłaściwie bazę traktujesz :)

Szy.

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności