Plik robots.txt

Elias · 20 Lipca 2011

Witam mam szybkie pytanie:

czy tak zbudowany plik robots.txt (patrz poniżej) mógł spowodować utrudnienie dla robotów? Chodzi głównie o "#" przed regułą. Wydaje mi się, że w najgorszym razie roboty mogły potraktować ten plik tak jakby go nie było...

#User-agent: *

#Disallow:

Bodhistawa · 20 Lipca 2011

Po co kombinujesz? Po prostu wrzuć pusty plik skoro i tak ma nic nie robić.

KxS · 22 Lipca 2011

Znak "#" powoduje to że roboty nie zwracają uwagi na tak rozpoczęty wiersz. Możemy tego używać na własne potrzeby, tworząc coś takiego:

User-agent: *

#

# !!!DISALLOW!!!

# Directories

Disallow: /administrator/

Disallow: /cache/

# Files

Disallow: /configuration.php

W twoim przypadku możesz stworzyć następujący - najprostszy plik robots.txt

User-agent: *

Allow: /

Darq · 2 Listopada 2011

Witam,

mam pytanie - czy taka składnia pliku robots.txt sprawi, że będą zablokowane wszystkie roboty oprócz Googlebota?

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

User-agent: Googlebot-Mobile
Allow: /

yavaho · 2 Listopada 2011

mam pytanie - czy taka składnia pliku robots.txt sprawi, że będą zablokowane wszystkie roboty oprócz Googlebota?

Nie. Ponieważ plik robots.txt jest tylko informacją. A informacja typu: "proszę nie wchodzić" nie dociera do wszystkich lub nawet nie jest czytana.

Darq · 2 Listopada 2011

Chyba źle się wyraziłem w poprzednim poście

Chodziło mi o to, czy taki zapis w pliku robots.txt jest poprawny składniowo, czyli czy można najpierw zablokować wszystkie roboty a później zezwolić na wejście dla googla.

Oczywiście zdaje sobie sprawę, że jakichś szczególnie upierdliwych robotów, jak np Yandex, taki zapis nie zatrzyma, jednak z tego co czytałem Yahoo czy Majestic stosuje się do zapisów z pliku robots. W dalszej kolejności to, co przeleci przez robots zablokuję w htaccess.

Reasumując, pytanie jest takie - czy składnia pliku jest poprawna?

M@k · 2 Listopada 2011

Tak. Sprawdzałem to.

Rogal · 15 Listopada 2011

Mam pewien problem:

Bo ogólnie rzecz mówiąc strona/blog miał wyłączone indeksowanie z poziomu ustawień wordpressa do czasu ukończenia podstawowych zawartości itp.

Kiedy odblokowałem Google Webmaster Tools zwracało błędy, że nie jest indeksowany jeden adres: www.domena.pl/. Dzisiaj błędu już nie zwraca, wyświetla się plik robots.txt postaci którą stworzyłem (taki: User-agent: *

Allow: /) ale nadal pokazuje, że coś nie tak (chociaż już nie krzaczy na kolor czerwony). Mianowicie w polu Błędy indeksowania pokazuje adres strony głównej.

Co ciekawe dzisiaj przyjęło poprawnie sitemap.

Co zrobić? Olać czy po prostu usunąć zawartość pliku robots.txt i czekać na zmianę?

Niepokoję się bo to pierwsza taka sytuacja że blog mało co do indeksu wysłał (link i frazę którą skatalogowałem w jednym miejscu).

rokko · 22 Listopada 2011

@Rogal, wykonaj jeszcze dodatkowe testy jak Google bot widzi Twoją witrynę. Co do robots, zalinkuj w nim do sitemapy, ustaw aby wszystkie boty miały dostęp do strony i już, na efekty w GWEB trzeba trochę poczekać. Tak w ogóle to jakbyś podał link do strony to byśmy w praktyce mogli wszystko sprawdzić, a tak to nic więcej nie da się powiedzieć.

tomierc · 9 Stycznia 2012

Robota zawsze pisze w webmaster tols i testuję w okienku rożne adresy. To ułatwia sprawę. Polecam

RybakWedka · 16 Stycznia 2012

Przez pomyłkę pracownik wrzucił robots.txt

User-agent: *

Disallow: /

Po kilku godzinach zawartość robots.txt została zmieniona na

User-agent: *

Allow: /

Minęło już kilkanaście godzin, a w narzędziach dla webmastera nadal jest czerwono i że robots.txt blokuje dostęp do strony.

Czy mogę jeszcze coś zaradzić i lepiej aby robots.txt był w takiej postaci jak podałem wyżej, a czy może całkowicie go usunąć?

Rogal · 16 Stycznia 2012

Musi się odświeżyć chyba Poczekaj nieco - do 48 godzin powinno się zmienić.

Mateusz Kasperek · 18 Stycznia 2012

najprościej skonfigurować plik robots.txt przez GWT i tam ja Cię odsyłam;)

grykom · 19 Stycznia 2012

Kilkaset moich podstron w 'HTML Sugestie' ma "podwójne" metatagi.

Okazało się, że niektóre artykuły są dostępne np. z trzech adresów. Winę ponosi źle zrobiony plik htaccess i mod_rewrite - ale nic na to nie poradzę (to Joomla).

Zatem "złe" adresy zablokowałem plikiem robots.txt

Czy robot widząc blokadę w robots.txt wyrzuci te adresy z indeksu - czy muszę je jeszcze zgłosić do usunięcia? (opcją Usuń adres URL)

Pytam, bo jest ich ponad 600

Bartek Damek · 20 Stycznia 2012

Za jakiś czas je wyrzuci, ale to może potrwać nawet kilka miesięcy:)

Zaloguj się

Plik robots.txt

Rekomendowane odpowiedzi

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Zarchiwizowany

Ostatnio przeglądający 0 użytkowników

Polecamy

Współpracują z nami

Powiadomienie o plikach cookie