Skocz do zawartości

Jak harvestować?


lament

Rekomendowane odpowiedzi

Jak harvestować najskuteczniej, aby zebrać jak największą ilość rekordów? Proponuję, aby w tym wątku każdy chętny w temacie dorzucił coś od siebie. Niech w końcu PiO posłuży jako źródło konkretnej informacji, bo z tym jest tutaj coraz gorzej.

Ja do harvestowania obecnie wykorzystuję:

1. Scrapebox + plugin Automator + ZennoProxyChecker (proxy publiczne w ilości ok 1200 aktualizowanych co około 2 godziny) - najwięcej danych w tym przypadku udaje mi się uzyskać przy 16 połączeniach i wyszukiwarce Yahoo.

2. Xseon - Link Parser - testuje od niedawna. W tym przypadku chciałbym okiełznać Google. Proxy publiczne w Google nie znają mi egzaminu, próbuje na 25 prywatnych. Efekt na razie średni, ale to pewnie jest kwestia konfiguracji, bo harvester jest potężny.

Jakie macie ustawienia do harvestu Google? Tj. ile wątków? przy jakiej ilości proxy? Jaki czas przerwy najlepiej ustawić?

http://spinning.com.pl - przynęty spinningowe

Odnośnik do komentarza
Udostępnij na innych stronach

Co do XseoN to czemu chcesz harvestowac wyłącznie w Google, to obecnie bardzo pracochłonny proces. Time ustawiaj w zależności jak tobie proxy "padają" i jak balans w antigate zmiesza się.

Pomyśli logicznie chyba jest niewiele stron co są zindeksowane w Google a nie są zindeksowane w Yandex czy innej wyszukiwarce wiec polecam harvestwac nie tylko w google, a dokładnie głownie nie w Google.

Proxy publiczne w Google nie znają mi egzaminu, próbuje na 25 prywatnych. Efekt na razie średni, ale to pewnie jest kwestia konfiguracji, bo harvester jest potężny.

prywatnych do xseona trzeba tak ok 100 zęby to miało ręce i nogi lub maksymalnie zwiększaj time ale wtedy szybkość bedzie tragiczna. Publicznymi można harwestwoac ale tzreba ich bardzo dużo tak ok 3000 najlepij ( XPCP na standardowych źródłach tyle nie da).

parser XseoNa nie w tej co bedzie a w następnej wersji bedzie hatvestwoac jako zarejestrowany uzytkownik co znacznie ułatwi harvest w Google bo żywotność proxy przy zapytaniach z zalogowanego konta jest tak na oko 3x dłuższą ( można samemu sprawdzić).

Odnośnik do komentarza
Udostępnij na innych stronach

Jak harvestować najskuteczniej, aby zebrać jak największą ilość rekordów?
Unikać operatorów intitle:, inurl: itd... czyli zaawansowanych gdyż na nie jest nakładana bardzo szybko blokada na IP klienta wykonującego żądanie HTTP.

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Jak harvestować najskuteczniej, aby zebrać jak największą ilość rekordów?
Unikać operatorów intitle:, inurl: itd... czyli zaawansowanych gdyż na nie jest nakładana bardzo szybko blokada na IP klienta wykonującego żądanie HTTP.

Przy harvescie WP to jeszcze jest możliwe w SB zaznaczając opcję Wordpress i wyszukiwarce Yahoo, jednak przy innych skryptach inurl jest raczej niezbędny właśnie.

http://spinning.com.pl - przynęty spinningowe

Odnośnik do komentarza
Udostępnij na innych stronach

Niekoniecznie, np: https://www.google.pl..."powered by expressionengine%22+%22Script+Executed+in+*%22&oq=%22member%2F99%22+%22powered+by+expressionengine%22+%22Script+Executed+in+*%22

coś się nie udało :) footprint może być np taki:

"member/99" "powered by expression engine" "scipt executed in *"

Odnośnik do komentarza
Udostępnij na innych stronach

Jak harvestować najskuteczniej, aby zebrać jak największą ilość rekordów?

Posiedzieć trochę nad skryptem, którego się szuka i napisać swój własny footprint.

Nie potrzeba inurl aby mieć dobre wyniki.

M

Strona https://sklep-promar24.pl to sklep internetowy sprzedający dobre polskie zlewozmywaki.

Odnośnik do komentarza
Udostępnij na innych stronach

Jak harvestować najskuteczniej, aby zebrać jak największą ilość rekordów?

Posiedzieć trochę nad skryptem, którego się szuka i napisać swój własny footprint.

Nie potrzeba inurl aby mieć dobre wyniki.

M

Możesz Mariusz podać jakiś przykład? Znasz jakiś sposób harvestowania po ciągu znaków w kodzie strony, a nie w widocznej treści? Footprinty typu "Powered by Wordpress + keyword + cos tam cos tam" nie jest zbyt dokładną propozycją i wiele stron "ulatuje" w ten sposób.

A jakie masz ustawienia w harvesterze? ile proxy i jakie? Ile wątków?

http://spinning.com.pl - przynęty spinningowe

Odnośnik do komentarza
Udostępnij na innych stronach

"Footprinty typu "Powered by Wordpress + keyword"

Najlepiej otwórz sobie kilka precelków i zobacz jakie mają cechy wspólne jak np. szablony, struktura linkowania wewnętrznego.

Jakby nie patrzył wordpressy można harvestować nawet i po wtyczkach:)

Kontakt: gg:7910861, PW
Zapraszam do sklepu: Sterkowski.pl - Czapki i kapelusze na każdą głowę :-)

Odnośnik do komentarza
Udostępnij na innych stronach

Powered < te szyko banowane sa ;)

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

ja też mam problem ze skutecznymi footprintami bez operatorów zaawansowanych po prostu wiele skryptów jest tak skonstruowanych, że bez inurl czy podobnych jest bardzo ciężko wyciągnąć dobrą bazke. CZasami jakaś wtyczka czy skrypt zostawi jakiś charakterystyczny tekst ale na poszukiwania traci się czas.

 Szablony do zennopostera - ZenBLOG, ZenSocialBot, ZenOgłoszenia, Szeptacz, ZenFles, ZenReview, szablony do poczty i inne). Tylko profile VIP proszę zamawiać przez priv lub email

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności