Skocz do zawartości

Problem Z Proxy


Dawka

Rekomendowane odpowiedzi

Cześć,

Mam problem z proxy, a dokładniej z testowaniem go. Coś robię źle, tylko nie wiem co. Mianowicie sytuacja wygląda tak: znajduję sobie na jakimś forum/w serwisie listę publicznych proxy. Wrzucam je do Scrapeboxa i testuję - 15 połączeń max. Po przeleceniu listy powiedzmy 200-300 mam około 20-30 proxy, które działają w Google. Zapisuję te, które przeszły googla i lecę je jeszcze raz, żeby sprawdzić, czy w międzyczasie nie padły. Z tych 20-30 zostaje mi może 7-8, które po chwili też padają i w zasadzie zostaję bez żadnego proxy, bo wszystkie mają komunikat Error 403. W czym tkwi problem? Rozumiem, że publiczne proxy padają szybciej lub wolniej, ale to raczej niemożliwe, żebym nie mógł z nich w ogóle skorzystać. Ewentualnie czasami uda mi się zacząć korzystać z kilku proxy, ale wtedy harvester i tak pada po 100-200 stronach, co jest żenującym wynikiem. Harvester mam ustawiony na 2-3 połączenia, więc to raczej nie jest za duża liczba.

Problem pewnie tkwi w testowaniu, ale w takim razie jak znaleźć dobre proxy bez ich testowania? Z góry dzięki za pomoc.

Potrzebny Ci grafik web designer? Napisz do mnie.

Odnośnik do komentarza
Udostępnij na innych stronach

Nie ma problemu tylko proxy publiczne padają jak muchy :]

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Z tego co czytałem na forach to wiele osób wykorzystuje publiczne proxy właśnie do harvestowania, a prywatne do postowania i innych rzeczy. Więc wydaje mi się to co najmniej dziwne. Na prawdę nie da się harvestować chociaż przez 5 minut na publicznych proxy?

Potrzebny Ci grafik web designer? Napisz do mnie.

Odnośnik do komentarza
Udostępnij na innych stronach

Zależy jaki te "publiczne" są innymi słowy z jakiego źródła pozyskane jak z pulicznych list zamieszczonych w sieci to będzie gorzej niż z publicznych kupowanych u dostawców proxy publicznych np proxymarket.pl i innych nawet "z tego" forum.

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Tego nie napisałem :]

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Tak jak piszesz.

Nie ma sensu testować n razy listę publicznych proxy jak chodzi o google gdyż dane proxy w tej chwili może być OK i w tym samym czasie inny user wykona n zapytań i proxy ma już bana. Jeszcze jest takie zjawisko, że dla IP klienta A proxy zwłaszcza transparentne może mieć bana, ale dla klienta i innym IP będzie działać.

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Można powiedzieć, że są dwa rodzaje publicznych proxy:

1. Proxy które znajdziesz na forach i które b. wiele osób harvestuje & sprawdza różnymi programami ( te proxy padają naprawdę jak muchy )

2. Proxy które pochodzą ze skanowania portów i nie znajdują się na żadnych forach (w zależności od tego na jakim porcie jest proxy może żyć od kilkunastu minut do kilkunastu dni).

Proxy wymienione w punkcie 1 z pewnością padają szybciej niż proxy wymienione w punkcie 2. Proxymarket i podobne firmy oferujące dostęp do proxy działają na proxy wymienionych w punkcie 2.

Do tego dochodzą jeszcze 3 rzeczy:

- scrapebox niedokładnie testuje proxy. Da się harvestować używając proxy które SB określa jako nie działające w google (sprawdzałem na własnej skórze).

- scrapebox testuje proxy bardzo wolno i bez softu do harvestowania i testowania proxy jak np api_proxy kolegi z forum nic sensownego tutaj nie zdziałasz i to co robisz nie ma sensu bo nigdy nie znajdziesz takiej ilości proxy żeby móc harvestować z zadowalającą prędkością (chyba że chcesz harvestować strony dla footprintu "wypas owiec w bieszczadach").

- logicznym rozwiązaniem w przypadku harvestowania na publicznych proxy jest harvestowanie jak najwięcej i jak najszybciej zanim proxy padnie. Scrapebox się do tego nie nadaje, bo harvestuje wolno i nie wykorzystuje w pełni potencjału proxy. Do harvestowania na publicznych proxy tylko Gscraper (ofc mam na mysli harvestowanie w google).

Odnośnik do komentarza
Udostępnij na innych stronach


logicznym rozwiązaniem w przypadku harvestowania na publicznych proxy jest harvestowanie jak najwięcej i jak najszybciej zanim proxy padnie.
Nawet prywatne proxy padnie <proxy ban > po n zapytaniach i każde kojne zapytania z danego IP ten limit zmiesza chyba, że jest odpowiedni czas odstępu między nimi. Ilość zapytań jaki klient < IP > wykona zależy też od typu zapytań, bo te z operatorami np inurl itd szybciej banują proxy.

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności