Skocz do zawartości

Scrapebox v 1.0 - 2.0


artur_waw

Rekomendowane odpowiedzi

hehe, co za zbieg okoliczności ;)

miałem się żalić dokładnie z tym samym problemem co ma szyszy.

Ustawiłem sobie grupe 10 niezbyt skomplikowanych footprintów. Proxy z PiO, wiadomo skąd. Nieważne jakie ustawienia timeoutów i delaya... co obrót to pobiera albo 0 urli, albo za każdym razem z innego słowa coś pobierze...

zapodałem harvestowanie bez proxy - cud miód i orzeszki... czyli odpowiedź jest prosta - prywatne proxy !!! szkoda czasu na zapisywanie "nieodpytanych" zapytań co chwile...

Odnośnik do komentarza
Udostępnij na innych stronach

Jestem świeżakiem w tematyce SB (SEO także) i mam parę pytań odnośnie korzystania z programu.

Nie piszę tu z lenistwa i wiem że w google można znaleźć wszystko :)

Kwestia czasu którego ciągle brakuje.

Przeglądałem forum BHW i znalazłem tam listy linków do pluginu Rapid Indexer.

Waszym zdaniem daje coś korzystanie z RI?

Jeśli tak to jaką ilość adresów można bezpiecznie wygenerować w ciągu tygodnia / miesiąca?

Wyczytałem, że ilość adresów należy dostosować do wieku domeny ale nigdzie nie znalazłem przykładowych ilości dla domen rocznych / 2 letnich / 3 letnich / 4 letnich.

Jeżeli zadaje głupie pytania to niespecjalnie. Stawiam dopiero pierwsze kroki i chciałbym się nauczyć paru nowych rzeczy oprócz korzystania z dodawarki :P

Odnośnik do komentarza
Udostępnij na innych stronach

czyli odpowiedź jest prosta - prywatne proxy :)

Ponieważ ponownie spotykam się na forum z tym twierdzeniem, pragnę z cierpliwością kamienia leżącego przy drodze kolejny raz podkreślić, twierdzenie takie, samo w sobie, jest błędne.

Tłumaczę już dlaczego. W pierwszej kolejności sugeruje ono, iż publiczne proxy nie nadają się do pracy z SB i szkoda na nie czasu, a tak do końca nie jest. Zgadzam się, że podawane publicznie na różnego rodzaju forach i stronach listy publicznych proxy są taką stratą czasu - powód: za dużo osób z nich korzysta. Jednak w żadnym wypadku nie można stwierdzić, iż publiczne proxy jako takie są do du..

Dlaczego? Prywatne proxy mają co do zasady tę przewagę, że są prywatne (przynajmniej w większości przypadku, bo niestety nie jest to regułą). Zatem teoretycznie tylko my powinniśmy z nich korzystać. Dzięki temu powinny być szybsze (o prędkości decyduje głównie liczba osób z proxy korzystająca, lokalizacja nie ma już takiego znaczenia) i łatwiej nam wpływać na to czy proxy zostanie zbanowane czy nie. Minusem prywatnych jest ich cena, okoliczność iż nie zawsze powyższy warunek prywatności zostaje zachowany (chociaż to i tak zawsze lepiej niż przy większości publicznych) oraz fakt ograniczonej liczby otrzymanych proxy. I teraz pytanie: jak długo jesteście w stanie harvestować w G na jednym prywatnym proxy?

Przy założeniu, że mamy wykupionych 10 prywatnych (koszt ok.20$), bo taki najczęściej pakiet jest wykupywany, zapewniam Was, że długo nie poharvestujecie sobie. Przy większej ilości proxy ten czas oczywiście się wydłuża, ale i cena stosownie rośnie.

Przyznaję, że co do zasady prywatne proxy powinny być lepsze niż publiczne. Jednak nie jest to reguła, zwłaszcza gdy weźmiemy wszystkie za i przeciw, które podałem u góry.

Przeprowadziłem też mały test:

footprint: site:.edu inurl:blog “post a comment” i trzy sposoby harvestowania na tych samych ustawieniach:

1. Z zamieszczonej wczoraj listy proxy odsiałem złe - zostało 69 dobrych, następnie te z latency powyżej 2000 - finalnie zostałem z 57 gotowymi do harvestowanie.

2. Bez proxy.

3. Moja lista 80 publicznych proxy, z której korzystam już jakiś czas i żeby jej nie zepsuć nie udostępniam z niej proxy (oczywiście takich proxy mam zdecydowanie więcej, ale nie mam zamiaru szykować całej armii do jednego małego footprincika ;))

Dla każdej z opcji przeprowadziłem po 3 próby

Wyniki zharvestowanych urli:

1. a/ 196 b/ 198 c/ 198 - średnia prędkość 4url/s

2. a/ 631 b/ 631 c/ 631 - 19/s

3. a/ 637 b/ 629 c/ 637 - 10/s

Jak widać bez proxy wypadło najlepiej. Jednak nie jestem w stanie harvestować na nim tyle ile bym chciał, bo banik poleci. Jest to jak wielu uważa odpowienik wyniku dla prywatnych proxy, co jednak niestety nie zawsze jest prawdą - pisałem dlaczego nie.

Drugie miejsce moje prywatne-publiczne proxy. Prędkość gorsza, ale ilość większa, no i mam za darmo... no prawie ;)

Trzecie miejsce proxy publ. zamieszczone dla szerokiego grona - średnia ilość pobrań moich proxy wynosi ok. 150. Jedna paczka po całej dobie zajeżdżania jej przez wielu użytkowników nigdy nie będzie lepsza od 10 prywatnych proxy ;)

To na tyle w temacie prywatnych/publicznych proxy z mojej strony.

Pozdrawiam.

spacer.png

Odnośnik do komentarza
Udostępnij na innych stronach

Google banuje też za rodzaj zapytania, więc nie istotne czy to będzie proxy publiecz, prywatne czy własny IP jak i tak dostaniemy za chwilę filtr wykonujac za często określony typ zapytania np site:*.*. Wiec jest całkiem duże prawdopodobienstwo, że na liście "publicznych inaczej" jakie udostępnia makauer zrobimy lepszą robotę niż na puli np 10 prywatnych z tego powodu, że tych od makauer jest znacznie wiecej.

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

korzystając z proxy Makauera.... i wykorzystując footprinty chociażby od arve_lek do harvestowania seokatalogów u mnie szukanie np. katalogów wyglada tak...

mając ok 80 proxy z latency do 1200.... harvest kończy się po odpytaniu ok. 200 footprintów (po 100 wyników), potem jest wstanie odpytać po maks 20 footprintów... i nic więcej sie nie da...

a sprawdzam potem te proxy i one są wg. harvestera proxy dalej niezbanowane... no i mnie to irytuje, dlatego dzisiaj kupiłem sobie prywatne proxy

Edytowane przez ragnar23
Odnośnik do komentarza
Udostępnij na innych stronach

Jak już pisalem szybkość nałożenie bana na IP przez google zależy między innymi od rodzaju wykonywych zapytań i IMHO jest coraz szybciej nakładany.

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

a sprawdzam potem te proxy i one są wg. harvestera proxy dalej niezbanowane... no i mnie to irytuje, dlatego dzisiaj kupiłem sobie prywatne proxy

Pamiętać należy o jednej rzeczy. Do użytku dostajesz jedną paczkę, raz na jakiś czas. Nie ma mocnych, aby skutecznie spełniała swoje zadanie przez dłuższy czas. Sytuacja wyglądałaby zupełnie inaczej, gdybyś systematycznie zaopatrywał się w świeże i dobre publiczne proxy.

szybkość nałożenie bana na IP przez google zależy między innymi od rodzaju wykonywych zapytań i IMHO jest coraz szybciej nakładany.
dlatego warto tworzyć footprinty bez inurl, site, intitle itd a wykorzystywać sam content strony

True, true...

spacer.png

Odnośnik do komentarza
Udostępnij na innych stronach

Panowie, skoro już jesteśmy w temacie proxy to może naświetlicie mi pewną rzecz.

Harvestowałem proxy przy użyciu pewnego, bardzo chwalonego na zachodzie narzędzia do analizy, harvestowania, filtrowania itp operacji na proxy.

Po sharvestowaniu kilku tysięcy URLi i sprawdzeniu kilkudziesięciu tysięcy proxy, dostałem 241 dobrych wyników, z czego:

- 93 full anonymous

- 121 no anonymous

- 27 Sock'ów

Zaznaczam, że to narzędzie sprawdzało proxy na bieżąco, czyli proxy na pewno były dobre. Wszystkie miały latency poniżej 1k, wszystkie sprawdzane przy pomocy zewnętrznych serwerów w wersji azenv 1.04, serwery testowane przez harvestowaniem.

Zaraz po sharvestowaniu wrzuciłem te proxy do Ping Mastera od Miona, ustawiłem timeout=5 i z tych 241 wyników dostałem 135 poprawnych.

Po sprawdzeniu w PSM wrzuciłem znów całą paczkę 241 szt do SB i po sprawdzeniu (timeout=10) dostałem 5 szt proxy, niezależnie czy sprawdzałem z IP test czy bez.

W SB większość bad proxies było oznaczone jako IP BLOCKED.

Skąd ta różnica, skoro wszystkie trzy sprawdzenia były wykonane na przestrzeni max 15 minut?

Odnośnik do komentarza
Udostępnij na innych stronach

@Ping Mastera od Miona

Działa w ten sposob, że za pośrednictwem proxy pobiera stronę główną google i szuka w zwróconym kodzie wystąpienia "advanced_search" jesli znajdzie to takie proxy oznaczane jest jako dobre. Tylko, że jest pewne ale jakie nidawno zauważyłem i w najbliższym czasie to zmienię - Jak chodzi o google to, że za pomocą proxy można pobrać stronę gówną nie jest równoważne z tym, że za pomocą tego samego proxy da się wykonac zapytanie wyszukujące :) Oczywiście są też proxy które nawet nie umożliwią pobrania strony głównej google bo mają całkowitego bana.

-------

Ale jest na to pewien sposob w konfiguracji programu w trzeciej zakladce wpisujemy adres taki jak by był w formie zapytania np:

https://www.google.pl/search?hl=pl&q=anonse i w polu [W pobranym kodzie strony szukaj] -> wpisujemy tego keywordsa: anonse | W tym wypadku program nie pobiera strony głównej google, ale stronę SERP;ow dla szukania anonse wiec jesli proxy będzie Proxy OK na pewno w chwili sprawdzania za pomocą tego proxy została zwrócona strona wynikó wyszukiwania, a nie strona z info o banie :)

Na jakiej zasdzeie scrapebox weryfikuje proxy nie wiem .

Edytowane przez Mion

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Wydaje mi się, że Scrapebox wszystkie proxy, które są zablokowane w Google oznacza jako bad nawet mimo tego, że działają i to bardzo sprawnie i spokojnie można byłoby nimi postować.

@Mion zauważ, że to o czym mówisz sprawiałoby, że wyniki byłyby oszukane w drugą stronę, czyli teoretycznie bad proxy byłyby oznaczone jako OK (skoro zapytanie zostało wykonane i "advanced_search" zwrócony), więc w tej sytuacji to nie ma nic do rzeczy. Główkuj dalej :P

Odnośnik do komentarza
Udostępnij na innych stronach

@, więc w tej sytuacji to nie ma nic do rzeczy.

Ma zadasniczo do rzeczy, bo w posobie z zapytaniem GET do google pobieramy stronę wyników wyszukiwania za pośrednictwem danego proxy.

Kolejny przykład przed chwilą sprawdzany - ustawienia:

proxysmst.jpg

pobieramy za pomocą proxy stronę wyszukiwania wiec jeśli mamy proxy OK na 100% dane proxy nie miało w chwili sprawdzania bana.

Zresztą tak zweryfikiwane proxy lepiej - wydajniej sprawują się w module do sprawdzania zaindeksowania programu PSM :P

---

Różnice w sprawdzaniu w opisamy sposób dobrze widać na proxy od makauer których większość jest OK a tymi pobranymi z ogólnodostępnych zródeł gdzie większość zwraca 302 co oznacza, ze pojawia sie strona w google bana IP proxy.

---

Topik tyczy scrapeboxa, więc wiecej na temat Proxy SEO Mastera tutaj nie pisze....

Edytowane przez Mion

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Oczywiście masz rację, że to jest lepsza metoda sprawdzania proxy przez PSM jednak ja napisałem, że w tamtej konkretnej sytuacji którą przedstawiłem, nie ma to żadnego znaczenia. Po prostu się nie zrozumieliśmy ale to nieważne - idźmy dalej :P

Dzięki uprzejmości Miona, który podesłał 500 proxy do testów, mogłem wykonać mały eksperyment.

Najpierw przeleciałem proxy PSM: OK 490/BAD 10

Później przeleciałem proxy SB: OK 271/BAD 229 bez IP TEST, po IP TEST: OK 242/BAD 258

Na końcu narzędziem, o którym pisałem wcześniej: OK 495/BAD 5

Na samym końcu dla pewności, przeleciałem proxy jeszcze raz PSM: OK 488/BAD 12

Jakieś pomysły skąd ta różnica? Skoro używając PSM byłem w stanie wykonać zapytania do Googla o frazę "anonse" to znaczy, że te proxy nie mają bana w Google.

Wykonałem też zapytania dla google.com i skutek identyczny jak dla pl - 490/500 proxy OK.

Dlaczego więc Scrapebox tak wiele z nich odrzuca?

Edytowane przez Darq
Odnośnik do komentarza
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności