Skocz do zawartości

Jak zablokować zaplecze przed robotami: ahrefs, majestic seo i open site explorer?


dentro

Rekomendowane odpowiedzi

  • Odpowiedzi 35
  • Dodano
  • Ostatniej odpowiedzi

Top użytkownicy w tym temacie

w htaacess mam taki wpis

RewriteBase /

RewriteCond %{HTTP_USER_AGENT} .*Twice.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*Yand.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*Yahoo.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*Voil.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*libw.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*Java.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*Sogou.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*psbot.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*Exabot.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*boitho.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*ajSitemap.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*Rankivabot.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*DBLBot.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*MJ1.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*Rankivabot.* [OR]

RewriteCond %{HTTP_USER_AGENT} .*ask.*

RewriteCond %{HTTP_USER_AGENT} .*AhrefsBot.*

RewriteCond %{HTTP_USER_AGENT} .*Roge.*

RewriteCond %{HTTP_USER_AGENT} .*Baidu.*

RewriteCond %{HTTP_USER_AGENT} .*site.*

RewriteCond %{HTTP_USER_AGENT} .*Ahre.*

RewriteCond %{HTTP_USER_AGENT} .*seo.*

RewriteCond %{HTTP_USER_AGENT} .*MJ12bot.*

RewriteRule ^(.*)$ https://www.wp.pl/ [L,R=301]

Order Allow,Deny

Allow from all

Deny from 110.0.0.0/8

Deny from 111.0.0.0/8

Deny from 112.0.0.0/5

Deny from 120.0.0.0/6

Deny from 124.0.0.0/8

Deny from 125.0.0.0/8

Deny from 147.0.0.0/8

Deny from 169.208.0.0

Deny from 175.0.0.0/8

Deny from 180.0.0.0/8

Deny from 182.0.0.0/8

Deny from 183.0.0.0/8

Deny from 202.0.0.0/8

Deny from 203.0.0.0/8

Deny from 210.0.0.0/8

Deny from 211.0.0.0/8

Deny from 218.0.0.0/8

Deny from 219.0.0.0/8

Deny from 220.0.0.0/8

Deny from 221.0.0.0/8

Deny from 222.0.0.0/8

w robots.txt taki wpis

User-Agent: Googlebot

Allow: /

user-agent: AhrefsBot

disallow: /

user-agent: Twice

disallow: /

user-agent: Yand

disallow: /

user-agent: Yahoo

disallow: /

user-agent: Voil

disallow: /

user-agent: libw

disallow: /

user-agent: Java

disallow: /

user-agent: Sogou

disallow: /

user-agent: psbot

disallow: /

user-agent: Exabot

disallow: /

user-agent: boitho

disallow: /

user-agent: ajSitemap

disallow: /

user-agent: Rankivabot

disallow: /

user-agent: DBLBot

disallow: /

user-agent: MJ1

disallow: /

user-agent: Rankivabot

disallow: /

user-agent: ask

disallow: /

user-agent: Roge

disallow: /

user-agent: Baidu

disallow: /

user-agent: site

disallow: /

user-agent: Ahre

disallow: /

user-agent: seo

disallow: /

user-agent: MJ12bot

disallow: /

Czy wpisy poprawne ?

Odnośnik do komentarza
Udostępnij na innych stronach

Powinno być dobrze. Na wszelki wypadek dodaj do .htaacces takie regułki z tymi samymi botami co masz teraz:

1:

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^AhrefsBot

RewriteCond %{HTTP_USER_AGENT} ^InnyBot

RewriteRule ^.* - [F,L]

2.

SetEnvIfNoCase User-Agent .*AhrefsBot.* bad_bot

SetEnvIfNoCase User-Agent .*InnyBot.* bad_bot

order allow,deny

deny from env=bad_bot

allow from all

Kocham Polskę

Odnośnik do komentarza
Udostępnij na innych stronach

Albo po prostu w robots.txt

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:

Co znaczy mniej więcej tyle:

Wszytkie boty - wypad

Googlebot - właź :P

Jak ktoś ma adsy lub inne usługi google to trzeba jeszcze dać zezwolenie w podobny sposób.

Niestety podana metoda działa tylko na "cywilizowane" boty, wszelkie botosyfy mają w du**e robots.txt

Niemniej warto to rozważyć bo za mocno rozbudowany htaccess potrafi skutecznie zamulić stronę.

Odnośnik do komentarza
Udostępnij na innych stronach

  • 6 miesięcy temu...

Witam. Jakiś czas temu teoretycznie zablokowałem boty w .httaccess. Niestety jak się okazało majestic dalej śmiga po stronie. Mógłby ktoś powiedzieć gdzie robie błąd? Mój cały wpis:

# BEGIN WordPress
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^AhrefsBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^baiduspider [OR]
RewriteCond %{HTTP_USER_AGENT} ^dotbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^mj12bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^rogerbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^sitebot [OR]
RewriteCond %{HTTP_USER_AGENT} ^lexxeBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ezooms [OR]
RewriteCond %{HTTP_USER_AGENT} ^ichiro [OR]
RewriteRule ^.* - [F,L]
RewriteBase /
RewriteRule ^index\.php$ - [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]
</IfModule>
RewriteCond %{HTTP_HOST} ^www.domena.pl(.*) [NC]
RewriteRule ^(.*)$ https://domena.pl/$1 [R=301,L]
# END WordPress

Pozdrawiam Modini

Odnośnik do komentarza
Udostępnij na innych stronach


Niestety jak się okazało majestic dalej śmiga po stronie. Mógłby ktoś powiedzieć gdzie robie błąd?
Mogli zmienić nazwę dla HTTP_USER_AGENT. Mogli dodać kolejne serwery skanujące, co za tym idzie inne IP. Przeanalizuj logi serwera.

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Albo po prostu w robots.txt

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
Co znaczy mniej więcej tyle:

Wszytkie boty - wypad

Googlebot - właź :P

Jak ktoś ma adsy lub inne usługi google to trzeba jeszcze dać zezwolenie w podobny sposób.

Niestety podana metoda działa tylko na "cywilizowane" boty, wszelkie botosyfy mają w du**e robots.txt

Niemniej warto to rozważyć bo za mocno rozbudowany htaccess potrafi skutecznie zamulić stronę.

I to jest chyba najrozsądniejsze rozwiązanie, oszczędza niepotrzebne dyrektowanie w .htaccess. Wystarczy teraz tylko znaleźć te oporne i wrzucić do .htaccess

Zastanawiam sie czy taki myk wystarczy na stronie finalnej, czy na wszystkich poziomach piramidy?

Odnośnik do komentarza
Udostępnij na innych stronach


czy wszystkie firmy pozycjonerskie blokują
Nie sadzę żeby była osoba która zna odpowiedz na tak postawione pytanie :zeby:

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Ja na swoich stronach tak blokuję (może lista nie jest aktualna ale po wrzuceniu do pliku htaccess zbędny ruch zmalał i to znacznie :))



<Limit GET POST>
 #The next line modified by DenyIP
 order allow,deny
 #The next line modified by DenyIP
 #deny from all
 allow from all
 </Limit>
 <Limit PUT DELETE>
 order deny,allow
 deny from all
 </Limit>
 
 <Files 403.shtml>
 order allow,deny
 allow from all
 </Files>
 
SetEnvIfNoCase User-Agent .*Twiceler.* bad_bot
SetEnvIfNoCase User-Agent .*trovitBot.* bad_bot
SetEnvIfNoCase User-Agent .*MJ12bot.* bad_bot
SetEnvIfNoCase User-Agent .*AhrefsBot.* bad_bot
SetEnvIfNoCase User-Agent .*VoilaBot BETA 1.2.* bad_bot
SetEnvIfNoCase User-Agent .*libwww-perl/5.805.* bad_bot
SetEnvIfNoCase User-Agent .*Java/1.5.0_11.* bad_bot
SetEnvIfNoCase User-Agent .*Sogou web spider/3.0.* bad_bot
SetEnvIfNoCase User-Agent .*psbot.* bad_bot
SetEnvIfNoCase User-Agent .*Exabot.* bad_bot
SetEnvIfNoCase User-Agent .*Charlotte/1.0b.* bad_bot
SetEnvIfNoCase User-Agent .*boitho.com-dc.* bad_bot
SetEnvIfNoCase User-Agent .*ajSitemap.* bad_bot
SetEnvIfNoCase User-Agent .*bot/1.0.* bad_bot
SetEnvIfNoCase User-Agent .*panscient.com.* bad_bot
SetEnvIfNoCase User-Agent .*Java/1.6.0_11.* bad_bot
SetEnvIfNoCase User-Agent .*WebDataCentreBot/1.0.* bad_bot
SetEnvIfNoCase User-Agent .*Java.* bad_bot
SetEnvIfNoCase User-Agent .*SapphireWebCrawler.* bad_bot
SetEnvIfNoCase User-Agent .*Yandex.* bad_bot
SetEnvIfNoCase User-Agent .*Baiduspider.* bad_bot
SetEnvIfNoCase User-Agent .*Rankivabot.* bad_bot
SetEnvIfNoCase User-Agent .*DBLBot/1.0.* bad_bot
SetEnvIfNoCase User-Agent "^Black Hole" bad_bot
SetEnvIfNoCase User-Agent   "^Titan" bad_bot
SetEnvIfNoCase User-Agent "^WebStripper"   bad_bot
SetEnvIfNoCase User-Agent "^NetMechanic" bad_bot
SetEnvIfNoCase   User-Agent "^CherryPicker" bad_bot
SetEnvIfNoCase User-Agent   "^EmailCollector" bad_bot
SetEnvIfNoCase User-Agent "^EmailSiphon"   bad_bot
SetEnvIfNoCase User-Agent "^WebBandit" bad_bot
SetEnvIfNoCase   User-Agent "^EmailWolf" bad_bot
SetEnvIfNoCase User-Agent "^ExtractorPro"   bad_bot
SetEnvIfNoCase User-Agent "^CopyRightCheck" bad_bot
SetEnvIfNoCase   User-Agent "^Crescent" bad_bot
SetEnvIfNoCase User-Agent "^Wget"   bad_bot
SetEnvIfNoCase User-Agent "^SiteSnagger" bad_bot
SetEnvIfNoCase   User-Agent "^ProWebWalker" bad_bot
SetEnvIfNoCase User-Agent "^CheeseBot"   bad_bot
SetEnvIfNoCase User-Agent "^Teleport" bad_bot
SetEnvIfNoCase   User-Agent "^TeleportPro" bad_bot
SetEnvIfNoCase User-Agent "^MIIxpc"   bad_bot
SetEnvIfNoCase User-Agent "^Telesoft" bad_bot
SetEnvIfNoCase   User-Agent "^Website Quester" bad_bot
SetEnvIfNoCase User-Agent "^WebZip"   bad_bot
SetEnvIfNoCase User-Agent "^moget/2.1" bad_bot
SetEnvIfNoCase   User-Agent "^WebZip/4.0" bad_bot
SetEnvIfNoCase User-Agent "^WebSauger"   bad_bot
SetEnvIfNoCase User-Agent "^WebCopier" bad_bot
SetEnvIfNoCase   User-Agent "^NetAnts" bad_bot
SetEnvIfNoCase User-Agent "^Mister PiX"   bad_bot
SetEnvIfNoCase User-Agent "^WebAuto" bad_bot
SetEnvIfNoCase   User-Agent "^TheNomad" bad_bot
SetEnvIfNoCase User-Agent "^WWW-Collector-E"   bad_bot
SetEnvIfNoCase User-Agent "^RMA" bad_bot
SetEnvIfNoCase User-Agent   "^libWeb/clsHTTP" bad_bot
SetEnvIfNoCase User-Agent "^asterias"   bad_bot
SetEnvIfNoCase User-Agent "^httplib" bad_bot
SetEnvIfNoCase   User-Agent "^turingos" bad_bot
SetEnvIfNoCase User-Agent "^spanner"   bad_bot
SetEnvIfNoCase User-Agent "^InfoNaviRobot" bad_bot
SetEnvIfNoCase   User-Agent "^Harvest/1.5" bad_bot
SetEnvIfNoCase User-Agent "^Bullseye/1.0"   bad_bot
SetEnvIfNoCase User-Agent "^Mozilla/4.0 (compatible; BullsEye;   Windows 95)" bad_bot
SetEnvIfNoCase User-Agent "^Crescent Internet ToolPak   HTTP OLE Control v.1.0" bad_bot
SetEnvIfNoCase User-Agent   "^CherryPickerSE/1.0" bad_bot
SetEnvIfNoCase User-Agent "^CherryPicker /1.0"   bad_bot
SetEnvIfNoCase User-Agent "^WebBandit/3.50" bad_bot
SetEnvIfNoCase   User-Agent "^NICErsPRO" bad_bot
SetEnvIfNoCase User-Agent "^Microsoft URL   Control - 5.01.4511" bad_bot
SetEnvIfNoCase User-Agent "^DittoSpyder"   bad_bot
SetEnvIfNoCase User-Agent "^Foobot" bad_bot
SetEnvIfNoCase   User-Agent "^WebmasterWorldForumBot" bad_bot
SetEnvIfNoCase User-Agent   "^SpankBot" bad_bot
SetEnvIfNoCase User-Agent "^BotALot"   bad_bot
SetEnvIfNoCase User-Agent "^lwp-trivial/1.34"   bad_bot
SetEnvIfNoCase User-Agent "^lwp-trivial" bad_bot
SetEnvIfNoCase   User-Agent "^Wget/1.6" bad_bot
SetEnvIfNoCase User-Agent "^BunnySlippers"   bad_bot
SetEnvIfNoCase User-Agent "^Microsoft URL Control - 6.00.8169"   bad_bot
SetEnvIfNoCase User-Agent "^URLy Warning" bad_bot
SetEnvIfNoCase   User-Agent "^Wget/1.5.3" bad_bot
SetEnvIfNoCase User-Agent "^LinkWalker"   bad_bot
SetEnvIfNoCase User-Agent "^cosmos" bad_bot
SetEnvIfNoCase   User-Agent "^moget" bad_bot
SetEnvIfNoCase User-Agent "^hloader"   bad_bot
SetEnvIfNoCase User-Agent "^humanlinks" bad_bot
SetEnvIfNoCase   User-Agent "^LinkextractorPro" bad_bot
SetEnvIfNoCase User-Agent "^Offline   Explorer" bad_bot
SetEnvIfNoCase User-Agent "^Mata Hari"   bad_bot
SetEnvIfNoCase User-Agent "^LexiBot" bad_bot
SetEnvIfNoCase   User-Agent "^Web Image Collector" bad_bot
SetEnvIfNoCase User-Agent "^The   Intraformant" bad_bot
SetEnvIfNoCase User-Agent "^True_Robot/1.0"   bad_bot
SetEnvIfNoCase User-Agent "^True_Robot" bad_bot
SetEnvIfNoCase   User-Agent "^BlowFish/1.0" bad_bot
SetEnvIfNoCase User-Agent "^JennyBot"   bad_bot
SetEnvIfNoCase User-Agent "^MIIxpc/4.2" bad_bot
SetEnvIfNoCase   User-Agent "^BuiltBotTough" bad_bot
SetEnvIfNoCase User-Agent   "^ProPowerBot/2.14" bad_bot
SetEnvIfNoCase User-Agent "^BackDoorBot/1.0"   bad_bot
SetEnvIfNoCase User-Agent "^toCrawl/UrlDispatcher"   bad_bot
SetEnvIfNoCase User-Agent "^WebEnhancer" bad_bot
SetEnvIfNoCase   User-Agent "^TightTwatBot" bad_bot
SetEnvIfNoCase User-Agent "^suzuran"   bad_bot
SetEnvIfNoCase User-Agent "^VCI WebViewer VCI WebViewer Win32"   bad_bot
SetEnvIfNoCase User-Agent "^VCI" bad_bot
SetEnvIfNoCase User-Agent   "^Szukacz/1.4" bad_bot
SetEnvIfNoCase User-Agent "^QueryN Metasearch"   bad_bot
SetEnvIfNoCase User-Agent "^Openfind data gathere"   bad_bot
SetEnvIfNoCase User-Agent "^Openfind" bad_bot
SetEnvIfNoCase   User-Agent "^Xenu's Link Sleuth 1.1c" bad_bot
SetEnvIfNoCase User-Agent   "^Xenu's" bad_bot
SetEnvIfNoCase User-Agent "^Zeus" bad_bot
SetEnvIfNoCase   User-Agent "^RepoMonkey Bait & Tackle/v1.01" bad_bot
SetEnvIfNoCase   User-Agent "^RepoMonkey" bad_bot
SetEnvIfNoCase User-Agent "^Zeus 32297   Webster Pro V2.9 Win32" bad_bot
SetEnvIfNoCase User-Agent "^Webster Pro"   bad_bot
SetEnvIfNoCase User-Agent "^EroCrawler" bad_bot
SetEnvIfNoCase   User-Agent "^LinkScan/8.1a Unix" bad_bot
SetEnvIfNoCase User-Agent "^Keyword   Density/0.9" bad_bot
SetEnvIfNoCase User-Agent "^Kenjin Spider"   bad_bot
SetEnvIfNoCase User-Agent "^Cegbfeieh" bad_bot
 
 order allow,deny
 deny from env=bad_bot
 allow from all

jak ktoś by miał lepszą listę to bym poprosił o udostępnienie może być na PW

bilbord_opublikuj_mini.png

Odnośnik do komentarza
Udostępnij na innych stronach

Linki znajdzie :) przecież wszystkiego nie zablokujesz - nie widać tylko tego co jest wstawione w apache'a lub htaccess...

Agencja marketingowa Semgence istnieje na rynku od 2018 i odpowiada za prowadzenie działań SEO dla wielu firm małych i dużych. Prowadzimy też kampanie Google Ads - niedawno zostaliśmy sie Partnerem Google spełniając odpowiednie kryteria. Betapoint

 

 

Odnośnik do komentarza
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się

×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności