Skocz do zawartości

zawartość pliku robots.txt a rozkazy w meta name ?


multisports

Rekomendowane odpowiedzi

Witam

Tak wygląda mój plik robots.txt:

User-agent: Slurp/2.0

Disallow: /

User-agent: BecomeBot

Disallow: /

User-agent: Nutch

Disallow: /

User-agent: Jetbot/1.0

Disallow: /

User-agent: Jetbot

Disallow: /

User-agent: AskJeeves

Disallow: /

User-agent: Teoma

Disallow: /

User-agent: Jeeves

Disallow: /

User-agent: WebVac

Disallow: /

User-agent: Stanford

Disallow: /

User-agent: Stanford CompSciClub

Disallow: /

User-agent: Stanford CompClub

Disallow: /

User-agent: Stanford Spiderboys

Disallow: /

User-agent: scooter

Disallow: /

User-agent: naver

Disallow: /

User-agent: dumbot

Disallow: /

User-agent: Hatena Antenna

Disallow: /

User-agent: grub-client

Disallow: /

User-agent: grub

Disallow: /

User-agent: looksmart

Disallow: /

User-agent: WebZip

Disallow: /

User-agent: larbin

Disallow: /

User-agent: b2w/0.1

Disallow: /

User-agent: Copernic

Disallow: /

User-agent: psbot

Disallow: /

User-agent: Python-urllib

Disallow: /

User-agent: Googlebot-Image

Disallow: /

User-agent: NetMechanic

Disallow: /

User-agent: URL_Spider_Pro

Disallow: /

User-agent: CherryPicker

Disallow: /

User-agent: EmailCollector

Disallow: /

User-agent: EmailSiphon

Disallow: /

User-agent: WebBandit

Disallow: /

User-agent: EmailWolf

Disallow: /

User-agent: ExtractorPro

Disallow: /

User-agent: CopyRightCheck

Disallow: /

User-agent: Crescent

Disallow: /

User-agent: SiteSnagger

Disallow: /

User-agent: ProWebWalker

Disallow: /

User-agent: CheeseBot

Disallow: /

User-agent: LNSpiderguy

Disallow: /

User-agent: Mozilla

Disallow: /

User-agent: mozilla

Disallow: /

User-agent: mozilla/3

Disallow: /

User-agent: mozilla/4

Disallow: /

User-agent: mozilla/5

Disallow: /

User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows NT)

Disallow: /

User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 95)

Disallow: /

User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 98)

Disallow: /

User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows XP)

Disallow: /

User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 2000)

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: ia_archiver/1.6

Disallow: /

User-agent: Alexibot

Disallow: /

User-agent: Teleport

Disallow: /

User-agent: TeleportPro

Disallow: /

User-agent: Stanford Comp Sci

Disallow: /

User-agent: MIIxpc

Disallow: /

User-agent: Telesoft

Disallow: /

User-agent: Website Quester

Disallow: /

User-agent: moget/2.1

Disallow: /

User-agent: WebZip/4.0

Disallow: /

User-agent: WebStripper

Disallow: /

User-agent: WebSauger

Disallow: /

User-agent: WebCopier

Disallow: /

User-agent: NetAnts

Disallow: /

User-agent: Mister PiX

Disallow: /

User-agent: WebAuto

Disallow: /

User-agent: TheNomad

Disallow: /

User-agent: WWW-Collector-E

Disallow: /

User-agent: RMA

Disallow: /

User-agent: libWeb/clsHTTP

Disallow: /

User-agent: asterias

Disallow: /

User-agent: httplib

Disallow: /

User-agent: turingos

Disallow: /

User-agent: spanner

Disallow: /

User-agent: InfoNaviRobot

Disallow: /

User-agent: Harvest/1.5

Disallow: /

User-agent: Bullseye/1.0

Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)

Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0

Disallow: /

User-agent: CherryPickerSE/1.0

Disallow: /

User-agent: CherryPickerElite/1.0

Disallow: /

User-agent: WebBandit/3.50

Disallow: /

User-agent: NICErsPRO

Disallow: /

User-agent: Microsoft URL Control - 5.01.4511

Disallow: /

User-agent: DittoSpyder

Disallow: /

User-agent: Foobot

Disallow: /

User-agent: WebmasterWorldForumBot

Disallow: /

User-agent: SpankBot

Disallow: /

User-agent: BotALot

Disallow: /

User-agent: lwp-trivial/1.34

Disallow: /

User-agent: lwp-trivial

Disallow: /

User-agent: https://www.WebmasterWorld.com bot

Disallow: /

User-agent: BunnySlippers

Disallow: /

User-agent: Microsoft URL Control - 6.00.8169

Disallow: /

User-agent: URLy Warning

Disallow: /

User-agent: Wget/1.6

Disallow: /

User-agent: Wget/1.5.3

Disallow: /

User-agent: Wget

Disallow: /

User-agent: LinkWalker

Disallow: /

User-agent: cosmos

Disallow: /

User-agent: moget

Disallow: /

User-agent: hloader

Disallow: /

User-agent: humanlinks

Disallow: /

User-agent: LinkextractorPro

Disallow: /

User-agent: Offline Explorer

Disallow: /

User-agent: Mata Hari

Disallow: /

User-agent: LexiBot

Disallow: /

User-agent: Web Image Collector

Disallow: /

User-agent: The Intraformant

Disallow: /

User-agent: True_Robot/1.0

Disallow: /

User-agent: True_Robot

Disallow: /

User-agent: BlowFish/1.0

Disallow: /

User-agent: https://www.SearchEngineWorld.com bot

Disallow: /

User-agent: JennyBot

Disallow: /

User-agent: MIIxpc/4.2

Disallow: /

User-agent: BuiltBotTough

Disallow: /

User-agent: ProPowerBot/2.14

Disallow: /

User-agent: BackDoorBot/1.0

Disallow: /

User-agent: toCrawl/UrlDispatcher

Disallow: /

User-agent: WebEnhancer

Disallow: /

User-agent: suzuran

Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32

Disallow: /

User-agent: VCI

Disallow: /

User-agent: Szukacz/1.4

Disallow: /

User-agent: QueryN Metasearch

Disallow: /

User-agent: Openfind data gathere

Disallow: /

User-agent: Openfind

Disallow: /

User-agent: Xenu's Link Sleuth 1.1c

Disallow: /

User-agent: Xenu's

Disallow: /

User-agent: Zeus

Disallow: /

User-agent: RepoMonkey Bait & Tackle/v1.01

Disallow: /

User-agent: RepoMonkey

Disallow: /

User-agent: Microsoft URL Control

Disallow: /

User-agent: Openbot

Disallow: /

User-agent: URL Control

Disallow: /

User-agent: Zeus Link Scout

Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32

Disallow: /

User-agent: Webster Pro

Disallow: /

User-agent: EroCrawler

Disallow: /

User-agent: LinkScan/8.1a Unix

Disallow: /

User-agent: Keyword Density/0.9

Disallow: /

User-agent: Kenjin Spider

Disallow: /

User-agent: Iron33/1.0.2

Disallow: /

User-agent: Bookmark search tool

Disallow: /

User-agent: GetRight/4.2

Disallow: /

User-agent: FairAd Client

Disallow: /

User-agent: Gaisbot

Disallow: /

User-agent: Aqua_Products

Disallow: /

User-agent: Radiation Retriever 1.1

Disallow: /

User-agent: WebmasterWorld Extractor

Disallow: /

User-agent: Flaming AttackBot

Disallow: /

User-agent: Oracle Ultra Search

Disallow: /

User-agent: MSIECrawler

Disallow: /

User-agent: PerMan

Disallow: /

User-agent: searchpreview

Disallow: /

User-agent: sootle

Disallow: /

User-agent: es

Disallow: /

User-agent: Enterprise_Search/1.0

Disallow: /

User-agent: Enterprise_Search

Disallow: /

User-agent: MSRBOT

Disallow: /

User-agent: *

Disallow: /cache/

Disallow: /cgi-bin/

Disallow: /common/

Disallow: /images/

Disallow: /modules/

Disallow: /themes/

Disallow: /includes/

Disallow: /config/

Disallow: /upload/

Disallow: /php/

o oto moje meta:

<meta name="robots" content="all">

<meta name="googlebot" content="all">

<meta name="msnbot" content="all">

<meta name="revisit-after" content="3 Days">

Proszę powiedzieć czy jest to odpowiednia kombinacja przywołania robotów co do pliku robots.txt

Dzięki za analizę, Pozdrawiam

Odnośnik do komentarza
Udostępnij na innych stronach

jeśli robot czyta robots.txt, to w pierwszej kolejności powinien własnie niem się posłużyć. Ale jak zwykle teoria swoje, a rzeczywistość swoje.

Co do samego robots.txt - nie wiem, czy przypadkiem nie jest określony rozmiar tego pliku, a tu jest sporawy. Może lepiej zrobić skrypcik wstawiający odpowiednią metę w zalezności od robota?

Odnośnik do komentarza
Udostępnij na innych stronach

Pewnie i racja ale jak ten skrypt miałby wyglądać i w którym miejscu go najlepiej wstawić ?

A tak na marginesie może ktoś wie ile kb powinien max mieć plik robots.txt

Meta <meta name="robots" content="all"> - spowoduje że wszystkie roboty przyjdą, czy że wszystkie z listy pliku robots.txt przyjdą ?

pozdr

Odnośnik do komentarza
Udostępnij na innych stronach

nie wiem, ale G zbuntowało mi się na robots.txt, który miał 128 lini

skryp, ot choćby taki:


$r_index=false;

$good_robots = array('msn','google');



foreach ($good_robots as $wz)

 if (eregi($wz, $_SERVER['HTTP_USER_AGENT']))

 {

 	$r_index=true;

 	break;

 }



if ($r_index)

 print("<meta name="robots" content="all">");

else

 print("<meta name="robots" content="noindex">");

Meta w pliku jst zabezpieczeniem na poziomie pliku i informuje o pozwoleniu lub zabronieniu indeksowania przez każdy robot, który wejdzie na ten plik. Jesli robot pobiera robots.txt, i odczyta, ze ma czegoś nie indeksować - nie ma prawa nawet zarządać zabronionego pliku.

Odnośnik do komentarza
Udostępnij na innych stronach

Zalazłem tester plików robots.txt

Oto co powiedział o moim pliku, nie jest chyba dobrze:

np:

319 User-agent: Enterprise_Search/1.0

320 Disallow: /

No item to disallow is entered

The line below this disallow must be another disallow statement or a blank line

adres testera:https://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php

Co jest źle, czy to jest czerwone światło dla robotów, czy jest ok ?

Oczywiscie zalezy mi na tym aby roboty przychodziły.

Oto meta dla robotów:

<meta name="robots" content="all"> ( czy to powoduje przywołanie wszystkich robotów z pliku robots.txt ? )

<meta name="googlebot" content="all">

<meta name="msnbot" content="all">

<meta name="revisit-after" content="3 Days">

Czy jest to prawidłowe przywołanie ?

Co tracę dając przyzwolenie all robotom ?

Ma ktoś może sprawdzony plik robots.txt do wstawienia, czy użyć skryptu powyżej lepiej ?

W którym miejscu kodu najlepiej wstawić ten skrypt ?

Pozdrawiam, dzięki za cierpliwość i odpowiedzi.

Odnośnik do komentarza
Udostępnij na innych stronach

powtażam, że zgodnie z zasadami pierwszym, co robot powinien zażądać jest plik robots.txt, i jeśli w nim nie znajdzie informacji o niedopuszczeniu - może wtedy zażądać danego pliku i sprawdzić metę w tym pliku.

co do samego robots.txt - przed każdą definicją user-agent chyba powinna być pusta linia.

Odnośnik do komentarza
Udostępnij na innych stronach

  • 2 tygodnie później...
Roboty najlepiej jest blokować z poziomu .htaccess. Większość tych, które chcesz zablokować i tak bedą olewały robots.txt.

nie wiem jak to sie dzieje, ale moja strona, ktora jest dosc niepozorna moze, choc forum wiecznie zywe, ale az tak wielu userow tam nie ma (teraz np. jest 18 ludzi na forum, 158 zarejestrowanych wogóle, 8602 posty)... w kazdym razie mam limit transferu 7 GB/m., a przekrocze go teraz wlasciwie niemalze dwukrotnie :( a to kosztuje, i to cholernie drogo, a nie patrzylem na serwery pod kątem dodatkowego transferu, bo przekraczanie jego limitów bylo dla mnie raczej czymś kosmicznym jak do tej pory :]

Zabralem sie za tworzenie pliku robots.txt

Chcialbym azeby po stronie i forum lazily tylko roboty polskie i Google. Reszte, lacznie z MSN, niech cholera wezmie.

Wiec jak mam sobie z tym poradzic?

Ktore roboty sie potrafia zapetlic i są najagresywniejsze?

Jak mialby wygladac ten plik .htaccess? - Michal- udostepnilbys? Przynajmniej tą część samą jego co do robotów, hm?

Bo ja muszę je poblokować, bo zdaje mi się, że to one mogly tak zaatakować stronę/forum. Pamiętam jak ktoś tu na forum mówil, ze któryś z robotó zżarl mu 1 GB transferu jak wlazl i się popętlil.

Na razie poblokowalem dostep wszystkim robotow do podstron z galeriami zdjęć i np. do czatu, bo tam nie mają po co wchodzić, nawet Google, bo tam zero treści.

ostatnimi czasy nie bywalem na forum -po prostu nie bylo kiedy :(

a Twoja ripostowa stopka Michal mnie rozwalila - swietna! :)

Odnośnik do komentarza
Udostępnij na innych stronach

Jak mialby wygladac ten plik .htaccess?

ja dodaje tyle ale zawsze mozna jeszcze kogos dopisac :-)


RewriteEngine On 

RewriteCond %{HTTP_USER_AGENT} "crawl" [OR]

RewriteCond %{HTTP_USER_AGENT} "msnbot" [OR] 

RewriteCond %{HTTP_USER_AGENT} "psbot" [OR]

RewriteCond %{HTTP_USER_AGENT} "slurp" [OR]

RewriteCond %{HTTP_USER_AGENT} "jeeves"

RewriteRule .* - [F]

Pozdrawiam, breja

wl4u3.gif

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności