Skocz do zawartości

Male pytanie...


Bucz

Rekomendowane odpowiedzi

Ostatnio znalazlem w swoich logacha apache'a takie linijki:

[Fri May 14 12:51:55 2004] [error] [client 64.68.82.58] File does not exist: c:/www/robots.txt

[Fri May 14 12:51:59 2004] [error] [client 64.68.82.58] Directory index forbidden by rule: c:/www/

Faktycznie nie mialem w katalogu ze stronami pliku robots.txt. a czytanie katalogow jest zabronione przez odpowiednie regulki. Strona po tej wizycie bota nie ostala zaindeksowana, i tu mam pytanie, czy ktorys z tych bledow mogl miec na to wplyw, czy to raczej przypadek?

Odnośnik do komentarza
Udostępnij na innych stronach

Z tego co napisales wnioskuje ze nie utworzyles pliku robots.txt... szkoda.

To taka mala nawigacja tworzona przez Ciebie dla robota..

Daje 90% ze to wlasnie przez to rowniez nie indeksuje tego co chcesz.

Jesli potrzebujesz wiedziec jak to wyglada,

# robots.txt for https://chudkiewicz.com

User-agent: * // co pozwala wesjc wszystkim robotom

Disallow: /stat // nie pozwala zagladac do katalogu stat

noarchive // nie archiwizuje

________________________________

fotoblog

Odnośnik do komentarza
Udostępnij na innych stronach

Prawde mowiac doczytalem sobie juz wczesniej o funkcji i formacie pliku robots.txt ale i tak dzieki za odpowiedz :-) Pytanie moje powinno brzmiec raczej: czy google jest na tyle "kulturalny" ze jak brakuje pliku robots.txt to wogole nie probuje indeksowac strony? I czy brak mozliwosci czytania katalogow jest jakas przeszkoda? (wszak robot porusza sie teoretycznie po linkach znalezionych w dokumencie)

Odnośnik do komentarza
Udostępnij na innych stronach

Powiem Ci tak, nic nie stoi na przeszkodzie, żebyś utworzył

ten plik. Złego się nic nie stanie.. a sumienie będziesz miał czyste,

ze postepujesz zgodnie z zasadami.

Jeśli chodzi o to czy brak tego dyskfalifikuje indeksowanie stron,

to nie zgodze się do konca, znam wiele stron o wysokich pozycjach,

bez tego pliku.

________________________________

fotoblog

Odnośnik do komentarza
Udostępnij na innych stronach

Ostatnio znalazlem w swoich logacha apache'a takie linijki:

[Fri May 14 12:51:55 2004] [error] [client 64.68.82.58] File does not exist: c:/www/robots.txt

[Fri May 14 12:51:59 2004] [error] [client 64.68.82.58] Directory index forbidden by rule: c:/www/

Faktycznie nie mialem w katalogu ze stronami pliku robots.txt. a czytanie katalogow jest zabronione przez odpowiednie regulki. Strona po tej wizycie bota nie ostala zaindeksowana, i tu mam pytanie, czy ktorys z tych bledow mogl miec na to wplyw, czy to raczej przypadek?

Nie wydaje mi się, aby to wogóle miało związek z robots.txt. Zobacz na drugą linijkę z logów "Directory index forbidden by rule: c:/www/" - tutaj chciał się dostać do twojego www, ale nie mógł.

Wszystko jest poprawnie, na początku bot sprawdza czy nie jest zabroniony w robots.txt i jeżeli nie jest to idzie dalej, ale był zabroniony dalej.

Odnośnik do komentarza
Udostępnij na innych stronach

Jeżeli nie ma pliku robots.txt, roboty domyślnie skanują całą zawartość strony.

Poprawna konfiguracja tego pliku jest najskuteczniejszym sposobem (prawie 100%) na określenie tego, co ma być skanowane.

Mówi się, że roboty Google sczytują ten plik podczas pierwszego wejścia danej doby (o ile wchodzą przynajmniej kilka razy danego dnia) - zresztą częstotliwość sczytywania tego pliku można sprawdzić w logach serwera.

Odnośnik do komentarza
Udostępnij na innych stronach

Wszystko jest poprawnie, na początku bot sprawdza czy nie jest zabroniony w robots.txt i jeżeli nie jest to idzie dalej, ale był zabroniony dalej.

No wlasnie i tu nasuwa sie pytanie, czy to ze bylo zabronione mialo wplyw na to ze nie zaindeksowal? Przeciez powinien teoretycznie sprobowac najpierw otworzyc strone index.html|.htm|.php i potem "odwiedzac" podstrony z linkow na stronie glownej. Po co mu dostep do odczytywania katalogu? Nie chcialbym usuwac tej regulki, bo mam sporo podkatalogow, do ktorych nie chcialbym wpuszczac nie tylko robotow ale i ludzi szperajacych po sieci, a nie chce mi sie ustawiac zabezpieczen dla kazdego z osobna... A moze roboty dzialaja inaczej niz mi sie wydaje? :shock:

Odnośnik do komentarza
Udostępnij na innych stronach

Akurat u mnie jest index.php, ale to szczegol bo znajac nazwe pliku i wpisujac pelny url mozna odczytac _kazdy_. Moje zabezpieczenienie nie pozwala tylko wyswietlac zawartosci katalogow, tam gdzie nie ma standardowego pliku index.php/html. To chyba zreszta standardowe ustawienie na wiekszosci serwerow zeby wywalalo blad 403 przy probie dostepu do podkatalogow z danymi... Coz, moze sprobuje przeniesc regulki z katalogu glownego do podkatalogow i zobacze co to da przy nastepnych odwiedzinach robota.

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności