Skocz do zawartości

Zabezpieczenie strony www przed botami


Gość

Rekomendowane odpowiedzi

Witajcie,

Istnieją jakieś sprawdzone sposoby na zabezpieczenie się przed botami, które harvestują stronę www?

Niektórzy tak nieumiejętnie to robią, że mam tysiąc odsłon z jednego IP w ciągu minuty. :]

Za każdą radę będzie plusik. ;)

Odnośnik do komentarza
Udostępnij na innych stronach

Ja bym wykorzystał fakt, że większość robotów nie parsuje js, tymczasem większość prawdziwych użytkowników to robi.

Z tym, że zrobienie mechanizmu raczej proste nie będzie (chyba, że są jakieś dodatki do apacha czy innego serwera z którego korzystasz).

W każdym razie zrobiłbym tak:

- dla każdej odsłony zapisanie do bazy IP odwiedzającego i czas wstawienia oraz czasu ost. odwiedzin, jeżeli ip już istnieje: uaktualnienie czasu ost. odwiedzin

- wstawienie na stronie wywołania ajax generowanego z js, ajax robiłby tak że w bazie do zapisanego ip dodawałby notatkę/flagę, że js udany

- osobny proces z crona który banuje IP gdzie js nieudany - oczywiście nie od razu tylko np. po kilku minutach od wstawienia IP do bazy, proces także powinien czyścić bazę ze starych IP (tzn - ostatnie odwiedziny np. godzinę temu lub później)

Sposób nr dwa prostszy: ban każdego kto wchodzi po protokole HTTP 1.0 a nie 1.1 (tylko tutaj trzebaby trochę doczytać, nie jestem na 100% pewny tego sposobu).

Oczywiście z obydwu sposobów trzeba wykluczyć IP porządane: binga/googla etc.

Odnośnik do komentarza
Udostępnij na innych stronach

Ja bym wykorzystał fakt, że większość robotów nie parsuje js, tymczasem większość prawdziwych użytkowników to robi.

Z tym, że zrobienie mechanizmu raczej proste nie będzie (chyba, że są jakieś dodatki do apacha czy innego serwera z którego korzystasz).

W każdym razie zrobiłbym tak:

- dla każdej odsłony zapisanie do bazy IP odwiedzającego i czas wstawienia oraz czasu ost. odwiedzin, jeżeli ip już istnieje: uaktualnienie czasu ost. odwiedzin

- wstawienie na stronie wywołania ajax generowanego z js, ajax robiłby tak że w bazie do zapisanego ip dodawałby notatkę/flagę, że js udany

- osobny proces z crona który banuje IP gdzie js nieudany - oczywiście nie od razu tylko np. po kilku minutach od wstawienia IP do bazy, proces także powinien czyścić bazę ze starych IP (tzn - ostatnie odwiedziny np. godzinę temu lub później)

Sposób nr dwa prostszy: ban każdego kto wchodzi po protokole HTTP 1.0 a nie 1.1 (tylko tutaj trzebaby trochę doczytać, nie jestem na 100% pewny tego sposobu).

Oczywiście z obydwu sposobów trzeba wykluczyć IP porządane: binga/googla etc.

ano nie bardzo bo może być filtr -> https://pl.wikipedia.org/wiki/Cloaking a z tego co wiem samo google ma ponad 300 robotów co się "przedstawiają" jako google + korzysta jeszcze z innych a o aktualną bazę tych robotów jest trudno

ja bym się w to w ogóle nie bawił, albo wpuszczam robota albo nie a to akurat prosta operacja i wystarczą metatagi

Odnośnik do komentarza
Udostępnij na innych stronach

kayman - przecież jest wiele robotów które mają gdzieś to co masz wpisane w meta tagach czy robots.txt

Ja też raczej bym zrobił jakiś cache etc. i generalnie zwiększył wydajność systemu tak, że ten ruch generowany przez roboty w niczym by nie przeszkadzał. Natomiast jeżeli ktoś chce/musi te roboty blokować to ja nie znam sposobu lepszego niż podałem.

Odnośnik do komentarza
Udostępnij na innych stronach

ja wiem ze olewają metatagi

osobiście chciałem też zapobiec ale wole zastosować 404

coś na zasadzie

$agent = $_SERVER['HTTP_USER_AGENT'];
if($agent =='tu nazwa robota ktorego nie chce") {
header("HTTP/1.0 404 Not Found");
exit;
}'

ale po głębszym namyśle stwierdziłem że bez aktualnej bazy moge się tylko dorobić filtra :)

Odnośnik do komentarza
Udostępnij na innych stronach

a ja mam sporą bazę IP różnorakich robotów, które zablokowałem w htaccess i mam święty spokój ;)

Panie Boże, chroń mnie przed debilami, bo rozmowa z nimi powoduje, że  grzeszę pychą..

Były sobie świnki trzy - content, google oraz link | jestem uczulony na pierd*lenie głupot | idiot intruder aka internetowy poszukiwacz prawdy 

Odnośnik do komentarza
Udostępnij na innych stronach

Kukis jasne, że całego spamerskiego ruchu nie wytniesz, ale chociażby 50% to już dużo.

Panie Boże, chroń mnie przed debilami, bo rozmowa z nimi powoduje, że  grzeszę pychą..

Były sobie świnki trzy - content, google oraz link | jestem uczulony na pierd*lenie głupot | idiot intruder aka internetowy poszukiwacz prawdy 

Odnośnik do komentarza
Udostępnij na innych stronach

Ostatnio to plaga, codziennie jakieś ostrzeżenia na hostingach, że CPU zajeżdżają moje webmini. I tym sposobem ubywa ich z publicznej bazy. Z tego co już tu wyczytałem nie tylko z resztą ja mam ten problem.

Właśnie mi się przypomniało, że kiedyś znalazłem takie coś (chyba nawet tu na PiO): https://docs.google.com/document/pub?id=1et3t_lEWQIAkn1b1hOark99mmyIx4-fnCsud8N1ncFQ , ale sam nie używałem nigdy tego skryptu.

Może ktoś testował i może napisać coś więcej?

Odnośnik do komentarza
Udostępnij na innych stronach

bardzo to złe :) (może stare)

bing to nie tylko -> msnbot ale także bingbot

yandexa nie uwzględnia wcale

a i samego google nie wpuści -> https://www.user-agents.org/ (w szukajce wpisać google)

btw. powyższa baza jest stara (jest tego o wiele więcej)

walka z wiatrakami ale jak ktoś chce życzę powodzenia :) (i chętnie poczytam/poznam rozsądne rozwiązanie)

Odnośnik do komentarza
Udostępnij na innych stronach

walka z wiatrakami ale jak ktoś chce życzę powodzenia

No właśnie co poniektórych poniosło z motyką na słońce... :)

CPM Leader - Najlepsze Reklamy CPM w internecie...

AdFreestyle - Najlepsze Reklamy CPC w internecie...

CPM Fun - Najlepiej płatne Reklamy CPM w internecie...

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności