Skocz do zawartości

[program] GHarvester - program do linków z SERP


Mion

Rekomendowane odpowiedzi

Brakuje:

- zaznaczanie wielu wyszukiwarek na raz ( obecnie bardzo skromnie i możliwy wybór 1 )

- brak podpięcia jakiś decaptcherów ( łamanie captchy przy prywatnych proxy)

- Generowanie 1mln footprintów trwało ponad 30 min i wciągało 3Gb ramu - do pracy na VPSach ten soft się nie sprawdzi https://snag.gy/Uyf3W.jpg. ( i tak mała lista słów kluczowych została wrzucona )

- Jak dodać prywatne proxy? Jaki format? brakuje jakieś podstawowej informacji na temat takich prostych rzeczy.

 

"Na szczycie zawsze znajdzie się miejsce" - Ale potrzebujesz serwera by tam się znaleźć - Zgarnij kod rabatowy do SEOhost 40% - lub rabat do Cyber_folks - 10% - Rabat do hitme -5% - #reklama #link_sponsorowany

Odnośnik do komentarza
Udostępnij na innych stronach

  • Odpowiedzi 83
  • Dodano
  • Ostatniej odpowiedzi
  W dniu 29.08.2014 o 07:28, cinmar napisał(a):

- zaznaczanie wielu wyszukiwarek na raz ( obecnie bardzo skromnie i możliwy wybór 1 )
Kolejne wyszukiwarki planowałem wprowadzić, ale w tym programie nie będą działać równolegle.
  W dniu 29.08.2014 o 07:28, cinmar napisał(a):

- brak podpięcia jakiś decaptcherów ( łamanie captchy przy prywatnych proxy)
Jest to możliwe tylko mam wątpliwości, co do opłacalności takiego rozwiania. Nie raz dostałem BANA "w przeglądarce" korzystając z zaawansowanych operatorów/zapytań i 10 wyników SERP i przy kolejnych zapytaniach strona tokena pokazywała się bardzo szybko.
  W dniu 29.08.2014 o 07:28, cinmar napisał(a):

- Generowanie 1mln footprintów trwało ponad 30 min i wciągało 3Gb ramu
Samo generowanie trafia szybko, ale czas i RAM jest to spowodowane tym, że FP wypisywane są niepotrzebnie do pola tekstowego. Przy następnej wersji wyeliminuje taką obsługę generatora. Można te używać znacznika %KW% do podstawienia jak na screenie.
  W dniu 29.08.2014 o 07:28, cinmar napisał(a):

Jak dodać prywatne proxy? Jaki format?
Zródła proxy dodawać można w menadżerze proxy zarówno zewnętrzne API jak i z dysku.

Format dla prywatnych proxy jest taki sam jak w innych wydanych przeze mnie programach

IP:PORT#LOGIN:HASLO
  W dniu 29.08.2014 o 07:28, cinmar napisał(a):

brakuje jakieś podstawowej informacji na temat takich prostych rzeczy.
Na razie są nagrania i postawie strona www z opisem funkcji jak tylko przybędą kolejne.

@cinmar - Dziękuję za poświęcony czas :pisze:

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

  • 1 rok później...

Minęło trochę czasu od ostatniego wpisu w temacie GHarvestera i mam pytanie jak wam się sprawuje? Według mnie to jeden z najlepszych harvesterów obecnie na rynku. Oczywiście nie mówię o jakiś kombajnach dedykowanych i pisanych na zamówienie (nie ten budżet).

 

Według mnie najważniejsze zalety: ściąga do końca, nawet jak proxy padnie to program powróci do zapytania jeśli nie było skończone w 100% (tutaj jest nie do pokonania), relatywnie małe zapotrzebowanie na moc serwera (aruba najmniejszy pakiet) i śmiga jak szalony jakieś 2 - 3 tygodnie temu miałem wydajność ok 500/sek. Na razie mam za sobą kilkadziesiąt harvestów, każdy ok 1 - 5 mln wyników i nie zawiódł mnie ani razu.

 

 

A jak u was się sprawuje? Może wymyślimy jakąś wspólną listę funkcji, które by się przydały żeby zrobić z niego jeszcze narzędzie? Automatyczna captcha dla proxy - to jedyne czego mi brakuje.

 

 

Odnośnik do komentarza
Udostępnij na innych stronach

  chladek napisał(a):

Bez dobrego źródła publicznych proxy za wiele nie zdziałamy teraz tym programem.
Nie do końca się z tym zgodzę, co zresztą pokazuje test sprzed godziny (aktualny) na kilkunastu proxy z PM.

 

Program NADAL daje radę.

 

GHarvester30proxy3.jpg

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Ale odpytując Google? Ja przed chwilą zrobiłem test na kilkunastu proxy z PM i wyszło bardzo kiepsko ( używam GScrapera ). Być może Twój program radzi sobie z tym lepiej, albo moje ślady jakieś za agresywne ;) na razie na lenia robię listy z Yahoo. Przez weekend trzeba będzie coś pomyśleć :/

Odnośnik do komentarza
Udostępnij na innych stronach

  Jarekseo napisał(a):

Ale odpytując Google?
TAK
  Jarekseo napisał(a):

Ja przed chwilą zrobiłem test na kilkunastu proxy z PM
Ja tak samo. Na ilu proxy widać na screenie.

 

  Jarekseo napisał(a):

może Twój program radzi sobie z tym lepiej,
Dlatego nazywa się (alias) wytrwały żniwiarz ... Nie stawia na szybkość, ale finalna ilość.

 

 

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

  makauer napisał(a):

Czyżbyśmy zmierzali w kierunku jakości ??
Cały czas w kierunku ilości od samego początku na zasadzie "Ziarko do ziarnka i zbierze się miarka"... Zwłaszcza teraz ma, to znacznie jak IP klienta (proxy) szybko ulega zbanowaniu...

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

[iNFO] - plik z "proxy z dysku" musi być w tym tej lokalizacji /proxy/ lub inny katalog, ale tam gdzie jest program EXE.

Prywatne proxy muszą mieć format:

ProxyIP:Port#Login:Password

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

  Mion napisał(a):

Dlatego nazywa się (alias) wytrwały żniwiarz ... Nie stawia na szybkość, ale finalna ilość.

 

Wytrwały żniwiarz wcale nie taki wolny... na publicznych proxy 150 k footprintów (w tym dużo na inurl) przeleciało w 10 h, aż sam się zdziwiłem :P

Polecam usługi ślubne we Wrocławiu: https://www.goodchoice.com.pl/

Profesjonalny kurs wizażu: https://lalabeautyacademy.pl/

Odnośnik do komentarza
Udostępnij na innych stronach

Program może działać do 100 wątków, więc sam w sobie wcale, aż taki wolny nie jest.

Dużo zależy od operatorów wyszukania w footprintach które szybciej/wolniej banują IP proxy.

 

Przykładowo od wczoraj Wytrwały Żniwiarz kosi na fotprintach z inurl:/xxxx/ intext:yyyyyyy razem i pakiecie proxy z ProxyMarket.pl

 

GHarvester70w.jpg

 

Na screenie widać 73 tysiące footprint >   5.3 milionów pobranych ....  i cały czas pobiera dalej.  Jednak zastosowany w tym wypadku mix footprint nie jest dobry gdyż zawiera za dużo słów, które na pewno dublują się w treści przez, co całkowita efektywność jest mniejsza, bo URL się powtarzają.

 

Na forum i nie tylko bardzo często pojawia się sformułowanie:

  Finan napisał(a):

To tak jak z każdym softem aby wycisnąć z niego jak najwięcej trzeba znaleźć swoje miejscówki.
I cała sztuka harvestowania na tym polega, by nie robić tego "jak inni" po przez "oczywiste" operatory dla danego typu CMS'a, bo wtedy owszem znajdziemy, ale te co mają "wszyscy" != dobre miejscówki. To taka mała dygresja :pisze:

 

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Jako ciekawostkę przedstawiam "najdłuższy harvestr nowocześniej Europy:olaboga:

 

Gharvester2dni.jpg

 

Specjalnie zostawiłem footprinty jakie były jako przykład, że też tak można pozyskać 21 milionów URL, ale z uwagi na czas ponad dwie doby.... nie jest, to efektywny sposób harvestowania 

 

 

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.

×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności