Skocz do zawartości

[program] GHarvester - program do linków z SERP


Mion

Rekomendowane odpowiedzi

Brakuje:

- zaznaczanie wielu wyszukiwarek na raz ( obecnie bardzo skromnie i możliwy wybór 1 )

- brak podpięcia jakiś decaptcherów ( łamanie captchy przy prywatnych proxy)

- Generowanie 1mln footprintów trwało ponad 30 min i wciągało 3Gb ramu - do pracy na VPSach ten soft się nie sprawdzi https://snag.gy/Uyf3W.jpg. ( i tak mała lista słów kluczowych została wrzucona )

- Jak dodać prywatne proxy? Jaki format? brakuje jakieś podstawowej informacji na temat takich prostych rzeczy.

 

"Na szczycie zawsze znajdzie się miejsce" - Ale potrzebujesz serwera by tam się znaleźć - Zgarnij kod rabatowy do SEOhost 40% - lub rabat do Cyber_folks - 10% - Rabat do hitme -5% - #reklama #link_sponsorowany

Odnośnik do komentarza
Udostępnij na innych stronach

  • Odpowiedzi 83
  • Dodano
  • Ostatniej odpowiedzi

- zaznaczanie wielu wyszukiwarek na raz ( obecnie bardzo skromnie i możliwy wybór 1 )
Kolejne wyszukiwarki planowałem wprowadzić, ale w tym programie nie będą działać równolegle.

- brak podpięcia jakiś decaptcherów ( łamanie captchy przy prywatnych proxy)
Jest to możliwe tylko mam wątpliwości, co do opłacalności takiego rozwiania. Nie raz dostałem BANA "w przeglądarce" korzystając z zaawansowanych operatorów/zapytań i 10 wyników SERP i przy kolejnych zapytaniach strona tokena pokazywała się bardzo szybko.

- Generowanie 1mln footprintów trwało ponad 30 min i wciągało 3Gb ramu
Samo generowanie trafia szybko, ale czas i RAM jest to spowodowane tym, że FP wypisywane są niepotrzebnie do pola tekstowego. Przy następnej wersji wyeliminuje taką obsługę generatora. Można te używać znacznika %KW% do podstawienia jak na screenie.

Jak dodać prywatne proxy? Jaki format?
Zródła proxy dodawać można w menadżerze proxy zarówno zewnętrzne API jak i z dysku.

Format dla prywatnych proxy jest taki sam jak w innych wydanych przeze mnie programach

IP:PORT#LOGIN:HASLO

brakuje jakieś podstawowej informacji na temat takich prostych rzeczy.
Na razie są nagrania i postawie strona www z opisem funkcji jak tylko przybędą kolejne.

@cinmar - Dziękuję za poświęcony czas :pisze:

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

  • 1 rok później...

Minęło trochę czasu od ostatniego wpisu w temacie GHarvestera i mam pytanie jak wam się sprawuje? Według mnie to jeden z najlepszych harvesterów obecnie na rynku. Oczywiście nie mówię o jakiś kombajnach dedykowanych i pisanych na zamówienie (nie ten budżet).

 

Według mnie najważniejsze zalety: ściąga do końca, nawet jak proxy padnie to program powróci do zapytania jeśli nie było skończone w 100% (tutaj jest nie do pokonania), relatywnie małe zapotrzebowanie na moc serwera (aruba najmniejszy pakiet) i śmiga jak szalony jakieś 2 - 3 tygodnie temu miałem wydajność ok 500/sek. Na razie mam za sobą kilkadziesiąt harvestów, każdy ok 1 - 5 mln wyników i nie zawiódł mnie ani razu.

 

 

A jak u was się sprawuje? Może wymyślimy jakąś wspólną listę funkcji, które by się przydały żeby zrobić z niego jeszcze narzędzie? Automatyczna captcha dla proxy - to jedyne czego mi brakuje.

 

 

Odnośnik do komentarza
Udostępnij na innych stronach


Bez dobrego źródła publicznych proxy za wiele nie zdziałamy teraz tym programem.
Nie do końca się z tym zgodzę, co zresztą pokazuje test sprzed godziny (aktualny) na kilkunastu proxy z PM.

 

Program NADAL daje radę.

 

GHarvester30proxy3.jpg

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Ale odpytując Google? Ja przed chwilą zrobiłem test na kilkunastu proxy z PM i wyszło bardzo kiepsko ( używam GScrapera ). Być może Twój program radzi sobie z tym lepiej, albo moje ślady jakieś za agresywne ;) na razie na lenia robię listy z Yahoo. Przez weekend trzeba będzie coś pomyśleć :/

Odnośnik do komentarza
Udostępnij na innych stronach


Ale odpytując Google?
TAK

Ja przed chwilą zrobiłem test na kilkunastu proxy z PM
Ja tak samo. Na ilu proxy widać na screenie.

 


może Twój program radzi sobie z tym lepiej,
Dlatego nazywa się (alias) wytrwały żniwiarz ... Nie stawia na szybkość, ale finalna ilość.

 

 

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach


Czyżbyśmy zmierzali w kierunku jakości ??
Cały czas w kierunku ilości od samego początku na zasadzie "Ziarko do ziarnka i zbierze się miarka"... Zwłaszcza teraz ma, to znacznie jak IP klienta (proxy) szybko ulega zbanowaniu...

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

[iNFO] - plik z "proxy z dysku" musi być w tym tej lokalizacji /proxy/ lub inny katalog, ale tam gdzie jest program EXE.

Prywatne proxy muszą mieć format:

ProxyIP:Port#Login:Password

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach


Dlatego nazywa się (alias) wytrwały żniwiarz ... Nie stawia na szybkość, ale finalna ilość.

 

Wytrwały żniwiarz wcale nie taki wolny... na publicznych proxy 150 k footprintów (w tym dużo na inurl) przeleciało w 10 h, aż sam się zdziwiłem :P

Polecam usługi ślubne we Wrocławiu: https://www.goodchoice.com.pl/

Profesjonalny kurs wizażu: https://lalabeautyacademy.pl/

Odnośnik do komentarza
Udostępnij na innych stronach

Program może działać do 100 wątków, więc sam w sobie wcale, aż taki wolny nie jest.

Dużo zależy od operatorów wyszukania w footprintach które szybciej/wolniej banują IP proxy.

 

Przykładowo od wczoraj Wytrwały Żniwiarz kosi na fotprintach z inurl:/xxxx/ intext:yyyyyyy razem i pakiecie proxy z ProxyMarket.pl

 

GHarvester70w.jpg

 

Na screenie widać 73 tysiące footprint >   5.3 milionów pobranych ....  i cały czas pobiera dalej.  Jednak zastosowany w tym wypadku mix footprint nie jest dobry gdyż zawiera za dużo słów, które na pewno dublują się w treści przez, co całkowita efektywność jest mniejsza, bo URL się powtarzają.

 

Na forum i nie tylko bardzo często pojawia się sformułowanie:


To tak jak z każdym softem aby wycisnąć z niego jak najwięcej trzeba znaleźć swoje miejscówki.
I cała sztuka harvestowania na tym polega, by nie robić tego "jak inni" po przez "oczywiste" operatory dla danego typu CMS'a, bo wtedy owszem znajdziemy, ale te co mają "wszyscy" != dobre miejscówki. To taka mała dygresja :pisze:

 

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Jako ciekawostkę przedstawiam "najdłuższy harvestr nowocześniej Europy:olaboga:

 

Gharvester2dni.jpg

 

Specjalnie zostawiłem footprinty jakie były jako przykład, że też tak można pozyskać 21 milionów URL, ale z uwagi na czas ponad dwie doby.... nie jest, to efektywny sposób harvestowania 

 

 

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.

×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności