Skocz do zawartości

plik robots.txt


shogun

Rekomendowane odpowiedzi

Interesuje mnie plik robots.txt. Zauwazylem w logach iz dosyc czesto są o niego zapytania, jednak pliku takiego nie ma. Z tego co wiem to jest on przeznaczony tylko dla robota indeksującego. Może ktoś wskazać gdzie znajdę informacje na temat tego pliku (lub po prostu napisac) ? Chodzi o to do czego dokladnie on sluzy, kiedy warto go stworzyc, co sie w nim powinno znaleźc itp.

Dzieki.

Shogun.

Odnośnik do komentarza
Udostępnij na innych stronach

  • 6 miesięcy temu...
  • 2 tygodnie później...
  • 2 miesiące temu...

Widzę, że istnieje już odpowiedni temat, więc dopiszę tu jedynie moje pytanie. Nie ma raczej sensu, abym tworzył nowy wątek...

Mam następującą wątpliwość. Użyłem w pliku robots.txt konstrukcji, jaką podałem poniżej.

User-agent: *

Disallow: /

User-agent: 1bot

Disallow:

User-agent: 2bot

Disallow:

User-agent: 3bot

Disallow:

Najpierw zabroniłem wstępu robotom wszystkich wyszukiwarek i potem zezwoliłem na indeksowanie wszystkich stron tylko kilku wybranym, które mnie interesują. I tu powstaje moje pytanie. Czy taka konstrukcja będzie właściwie działać? Boję się, że roboty mogą odczytać na początku pliku, iż nie mają wstępu, odejdą ze strony i nie doczytają poniżej lub nie wezmą pod uwagę, iż indeksowanie stron jest dozwolone dla kilku wybranych wyszukiwarek. Czy orientujecie się, czy taka konstrukcja pliku robots.txt jest właściwa?

EERIE

Odnośnik do komentarza
Udostępnij na innych stronach

Ze strony msn oraz po części robotstxt wynika, iż powinienem zapisać to w odwrotnej kolejności (przykłady poniżej). Czy kolejność zapisu ma tu znaczenie? Domyślam się, że ma...

User-agent: 1bot

Disallow:

User-agent: 2bot

Disallow:

User-agent: 3bot

Disallow:

User-agent: *

Disallow: /

Allow only MSNBot access 

User-agent: msnbot

Disallow: 

User-agent: * 

Disallow: /

# /robots.txt file for https://webcrawler.com/

# mail webmaster@webcrawler.com for constructive criticism

User-agent: webcrawler

Disallow:

User-agent: lycra

Disallow: /

User-agent: *

Disallow: /tmp

Disallow: /logs

The first two lines, starting with '#', specify a comment 

The first paragraph specifies that the robot called 'webcrawler' has nothing disallowed: it may go anywhere. 

The second paragraph indicates that the robot called 'lycra' has all relative URLs starting with '/' disallowed. Because all relative URL's on a server start with '/', this means the entire site is closed off. 

The third paragraph indicates that all other robots should not visit URLs starting with /tmp or /log. Note the '*' is a special token, meaning "any other User-agent"; you cannot use wildcard patterns or regular expressions in either User-agent or Disallow lines.

EERIE

Odnośnik do komentarza
Udostępnij na innych stronach

rządanie jest o plik php. Dla przeglądarki, czy bota nie ma znaczenia rozszerzenie (przynajmniej w teorii), a to, co dostanie w odpowiedzi.

Odnośnik do komentarza
Udostępnij na innych stronach

rządanie jest o plik php. Dla przeglądarki, czy bota nie ma znaczenia rozszerzenie (przynajmniej w teorii), a to, co dostanie w odpowiedzi.
Dlaczego uważasz, że tylko w teorii? Może uzasadnij swoje stwierdzenie :?

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Bo w praktyce różn różności się widuje :P To takie zabezpieczenie przed genialnym pomysłem jakiegoś programisty :lol:
Kolego siakieś nowe bzdury piszesz ... 8)

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Oj, nie bzdury... Już różne cuda się widywało, jak np. interpretację przez robota pliku, jako katalogu :lol: I pojęcia nie mam, skąd mu się to brało, podczas, gdy w przeglądarkach wszystko działało poprawnie.

Z resztą - nie bzdury chyba... Napisałem, że rozszerzenie nie determinuje typu pliku. Choć w tym przypadku moga być menedżery downloadu, które właśnie na rozszerzeniu bazują rozpoznajac, czy mają rozpocząć pobieranie.

Pytanie brzmiało, czy warto odcinać pliki php, skoro bot widzi HTML. Odpowiedź jest taka - dokąd poprawnie pracuje serwer, to wynik działania skrypt w pliku PHP będzie interpretowany jako zawartość tego pliku. Bo to (wynik) wystawia serwer na zewnątrz.

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności