Skocz do zawartości

Plik robots.txt


Elias

Rekomendowane odpowiedzi

Witam mam szybkie pytanie:

czy tak zbudowany plik robots.txt (patrz poniżej) mógł spowodować utrudnienie dla robotów? Chodzi głównie o "#" przed regułą. Wydaje mi się, że w najgorszym razie roboty mogły potraktować ten plik tak jakby go nie było...

#User-agent: *

#Disallow:

Okolice Krakowa - zdjęcia, opisy wycieczek po Małopolsce etc.

r0qqgk.gif

Odnośnik do komentarza
Udostępnij na innych stronach

Znak "#" powoduje to że roboty nie zwracają uwagi na tak rozpoczęty wiersz. Możemy tego używać na własne potrzeby, tworząc coś takiego:

User-agent: *

#

# !!!DISALLOW!!!

# Directories

Disallow: /administrator/

Disallow: /cache/

# Files

Disallow: /configuration.php

W twoim przypadku możesz stworzyć następujący - najprostszy plik robots.txt

User-agent: *

Allow: /

Odnośnik do komentarza
Udostępnij na innych stronach

  • 3 miesiące temu...
mam pytanie - czy taka składnia pliku robots.txt sprawi, że będą zablokowane wszystkie roboty oprócz Googlebota?

Nie. Ponieważ plik robots.txt jest tylko informacją. A informacja typu: "proszę nie wchodzić" nie dociera do wszystkich lub nawet nie jest czytana.

.

Odnośnik do komentarza
Udostępnij na innych stronach

Chyba źle się wyraziłem w poprzednim poście :D

Chodziło mi o to, czy taki zapis w pliku robots.txt jest poprawny składniowo, czyli czy można najpierw zablokować wszystkie roboty a później zezwolić na wejście dla googla.

Oczywiście zdaje sobie sprawę, że jakichś szczególnie upierdliwych robotów, jak np Yandex, taki zapis nie zatrzyma, jednak z tego co czytałem Yahoo czy Majestic stosuje się do zapisów z pliku robots. W dalszej kolejności to, co przeleci przez robots zablokuję w htaccess.

Reasumując, pytanie jest takie - czy składnia pliku jest poprawna?

Odnośnik do komentarza
Udostępnij na innych stronach

  • 2 tygodnie później...

Mam pewien problem:

Bo ogólnie rzecz mówiąc strona/blog miał wyłączone indeksowanie z poziomu ustawień wordpressa do czasu ukończenia podstawowych zawartości itp.

Kiedy odblokowałem Google Webmaster Tools zwracało błędy, że nie jest indeksowany jeden adres: www.domena.pl/. Dzisiaj błędu już nie zwraca, wyświetla się plik robots.txt postaci którą stworzyłem (taki: User-agent: *

Allow: /) ale nadal pokazuje, że coś nie tak (chociaż już nie krzaczy na kolor czerwony). Mianowicie w polu Błędy indeksowania pokazuje adres strony głównej.

Co ciekawe dzisiaj przyjęło poprawnie sitemap.

Co zrobić? Olać czy po prostu usunąć zawartość pliku robots.txt i czekać na zmianę?

Niepokoję się bo to pierwsza taka sytuacja że blog mało co do indeksu wysłał (link i frazę którą skatalogowałem w jednym miejscu).

Odnośnik do komentarza
Udostępnij na innych stronach

@Rogal, wykonaj jeszcze dodatkowe testy jak Google bot widzi Twoją witrynę. Co do robots, zalinkuj w nim do sitemapy, ustaw aby wszystkie boty miały dostęp do strony i już, na efekty w GWEB trzeba trochę poczekać. Tak w ogóle to jakbyś podał link do strony to byśmy w praktyce mogli wszystko sprawdzić, a tak to nic więcej nie da się powiedzieć.

Domeny na sprzedaż - pod zaplecze SEO, strony PP, strony firmowe, sklepy internetowe.

Zapraszam również na podstronę z darmowymi narzędziami SEO >> https://techformator.pl/darmowe-narzedzia-seo/

Jeżeli jesteś zainteresowany publikacjami wpisów gościnnych, napisz do mnie @.

Odnośnik do komentarza
Udostępnij na innych stronach

  • 1 miesiąc temu...

Przez pomyłkę pracownik wrzucił robots.txt

User-agent: *

Disallow: /

Po kilku godzinach zawartość robots.txt została zmieniona na

User-agent: *

Allow: /

Minęło już kilkanaście godzin, a w narzędziach dla webmastera nadal jest czerwono i że robots.txt blokuje dostęp do strony.

Czy mogę jeszcze coś zaradzić i lepiej aby robots.txt był w takiej postaci jak podałem wyżej, a czy może całkowicie go usunąć?

; ]

Odnośnik do komentarza
Udostępnij na innych stronach

Kilkaset moich podstron w 'HTML Sugestie' ma "podwójne" metatagi.

Okazało się, że niektóre artykuły są dostępne np. z trzech adresów. Winę ponosi źle zrobiony plik htaccess i mod_rewrite - ale nic na to nie poradzę (to Joomla).

Zatem "złe" adresy zablokowałem plikiem robots.txt

Czy robot widząc blokadę w robots.txt wyrzuci te adresy z indeksu - czy muszę je jeszcze zgłosić do usunięcia? (opcją Usuń adres URL)

Pytam, bo jest ich ponad 600 :D

https://www.trophystation.pl/ - trofea playstation

Odnośnik do komentarza
Udostępnij na innych stronach

Za jakiś czas je wyrzuci, ale to może potrwać nawet kilka miesięcy:)

TestyPozycjonera.pl Testy SEO - Białe, czarne i wszelkie inne odcienie SEO w praktyce.

KsiegaPozycjonera.pl Pozycjonowanie i Optymalizacja - Twoja baza wiedzy.

NarzedziaPozycjonera.pl Narzędzia Pozycjonera - Zleć nam czarną robotę pozycjonera.

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności