Skocz do zawartości

[Jak zrobić?] Narzędzie sprawdzające ogromne liczby site:


Kyo

Rekomendowane odpowiedzi

Próbuje napisać narzędzie sprawdzające site: dla 35000 adresów, i na dokładkę musi to robić co miesiąc. Nie chodzi o SWL, tylko o zwykły analizator domenek :E Wsyztskei inne paramatery harvestuje bez najmniejszego problemu, jednak po ok 300-500 zapytań o site: Google banuje IP.

Aktualnie mam ostatnie nieprzetestowane pomysły:

- harvester w php, który pyta tak żadko i z randomowymi odstępami czasu, ze Google nie zauważy - ale 1mc=30dni=720godzin-43200 minut czyli pytam prawie co minutę => wg mnie Google zauważy

- zaprzęgam do tego seo quake i ... dostaje bana na IP -> musze jakoś zmieniać IP, nie mam neo a pozatym to masa zabawy -> 35.000 adresów do SEO Quake.

Jakieś pomysły? Może autorzy SWLi które monitorują site masy domen się wypowiedzą?

Odnośnik do komentarza
Udostępnij na innych stronach

  • Odpowiedzi 30
  • Dodano
  • Ostatniej odpowiedzi

Możesz wykorzystać proxy lub zrobić coś w stylu proxy. Na różne hostingi (różne adresy IP) wrzucasz plik php, który będzie dla Ciebie wykonywać zapytanie do google. Używasz do tego cURL. Musisz tylko odpowiednio zabezpieczyć takie pliki php aby nikt ich nie wykorzystał dla siebie.

Odnośnik do komentarza
Udostępnij na innych stronach

35000 na miesiąc

1166,(6) na dzień

To w sumie nie dużo, swego czasu napisałem taki program

GoogleSite

I z tego co pamiętam jak ktoś za dużo miał w bazie to dość szybko blokowało :)

Maksymalnie udało mi sie sprawdzić 3,5 tysiaca adresów , ale teraz google szybciej blokuje

W Twoim przypadku to trzeba liste wrzucić do bazy

np.

ADRES | DATA_GENERACJI_SITE | SITE

codziennie wybierasz adresy z najstarszymi DATAMI w ilości 1167

wykonujesz pomiar SITE i zapisujesz date w DATA_GENERACJI_SITE

i tak codziennie :(

Na poczatek warto wypełnić DATA_GENERACJI_SITE jakąs historyczną datą ,aby nie tworzyć warunków

że najpier z pustą datą a potem te rekordy które mają datę wpisaną

Co do proxy to możesz wykorzystać albo "proxy proxy" czyli takie klasyczne które mozna podac jako parametr curl-a

albo proxy w postaci skryptu PHP

Odnośnik do komentarza
Udostępnij na innych stronach

Skąd to zdziwienie? A nie można użyć proxy do cURL?

to nie jest zdziwienie, to miała być odpowiedź ;-) tylko żeś mnie uprzedził i wyszło ździwienie :(

edit - można używać proxy z cURL ;-)

zastanawiam się jak google traktuje transparentne proxy...

w nagłówkach przesyłane jest nasze IP - teraz pytanie

załóżmy że ban leci po 1k odpytań

sytuacja 1 - 11 osób puszcza po 100 zapytań = 1,1k - czy google banuje to proxy ?

sytuacja 2 - puszczamy 1001 zapytań przez różne transparentne proxy - czy google wyczai to i dostaniemy bana ?

A dla leniwych: sprzątanie białystok ;]

A dla relaksu możesz zapalić kadzidełka

faceplus_banner_234x60_black.png Punkty FanCop od 3pln / 1k

SPRZEDAM: Volvo S40 1.9D, 2002; 220k przebiegu. Lokalizacja: Białystok; Tel 724-148-596

Odnośnik do komentarza
Udostępnij na innych stronach

Zainwestuj w 10 najtańszych różnych hostingów z różnymi IP. 1166,(6) na dzień / 10 = 116,6 dziennie na dane IP

i na nich umieszczasz skrypt który zwróci site dla domeny która zosatnie mu przekazana jako parametr wywołania. Na serwerze głównym musisz miec oprogramowanie które odpalane z crona bedzie wywoływać plik wywołujacy pliki pobierające na serwerach "proxy"...

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Hubert - zrób test i podaj wyniki,

proxy może ale nie musi pokazywać moje IP

google może ale nie musi sprawdzać takie IP podawane przez proxy, może blokowac adres proxy

W sumie prościutkie testy nie trzeba długo czekać bo za to to sie szybko dostaje ban-a, i nie bedzie problemów z wiarygodnością wyników.

Google wyczaić to za wiele nie może, wszak jeszcze nie ma szpiega na każdym komputerze ;)

Odnośnik do komentarza
Udostępnij na innych stronach

@Maximus - rozmyślałem o proxy które wysyłają nasze IP w nagłówkach. Fakt, testy to nie problem, ale chwilowo cierpię na permanentny brak czasu ;-) magisterkę muszę złożyc do środy :/

@ - pomysł z wykupywaniem serwerów może byc problematyczny w przypadku gdy ktoś inny też wpadł na ten pomysł. Kiedyś chciałem popingowac sitemapę do Yahoo z serwera i zazwyczaj dostawałem błąd o wyczerpaniu limitu. (limit w Y! to 5k, ale z powodzeniem można wysłac nawet do 8-12k pingów)

A dla leniwych: sprzątanie białystok ;]

A dla relaksu możesz zapalić kadzidełka

faceplus_banner_234x60_black.png Punkty FanCop od 3pln / 1k

SPRZEDAM: Volvo S40 1.9D, 2002; 220k przebiegu. Lokalizacja: Białystok; Tel 724-148-596

Odnośnik do komentarza
Udostępnij na innych stronach

A to może taka koncepcja:

Założenia wstępne: posiadamy stronę o dość sporej oglądalności

Umieszczamy na stronie kawałek JS który wykonuje następujące czynności w kontekście użytkownika oglądającego naszą stronę:

1) Pobierz adres strony która ma być sprawdzona https://BAZA_ADRESÓW/get_adres.php (wykonujemy GET w kierunku naszego serwera)

2) Pobierz stronę z SITE (czyli wykonujemy GET w kierunku google)

3) Przetwórz wyniki SITE (w sumie proste)

4) Wyślij wyniki na adres https://BAZA_WYNIKÓW/wyślij_dane.php?a...XX&site=YYY (wykonujemy GET w kierunku naszego serwera)

Użytkownicy wchodzą na moja stronę a przy okazji wykonują dla nas robotę :)

Nie widzę na razie przeciwwskazań aby nie działało.

I nie widzę sposobu aby to zablokować ;) Tym sposobem to 35.000 stron TO PIKUŚ

Odnośnik do komentarza
Udostępnij na innych stronach

Dostęp do internetu ze zmiennym IP typu Neostrada?

[dodane]

I nie widzę sposobu aby to zablokować
Zablokować jak najbardziej można, dodatkowo wszyscy by mogli sobie zobaczyć "https://BAZA_ADRESÓW/get_adres.php" oraz osoba wchodząca na taką stronę może podejrzeć jakie dane są przekazywane.

Nie znam się na pozycjonowaniu, ja tu tylko zużywam transfer i miejsce w sql.

Roman Kluska ujawnia: nadchodzi INFLACYJNY ARMAGEDON!

 

Odnośnik do komentarza
Udostępnij na innych stronach

Myślałem o zablokowaniu z punktu widzenia G.

Przecież te dane nie są tajne wiec nie widzę problemu jak ktoś sobie zobaczy.

Czy ktokolwiek sprawdza co jest wysyłane przez JS ? Bo ja wątpię

Dokładnie to myślałem o użyciu

https://docs.jquery.com/Ajax "Ajax Requests"

Odnośnik do komentarza
Udostępnij na innych stronach

Przecież te dane nie są tajne
Nie chciałbym żeby wszyscy mogli zobaczyć jakim stronom sprawdzam site lub cokolwiek innego.
Czy ktokolwiek sprawdza co jest wysyłane przez JS ?
Nie trzeba sprawdzać co wysyła tylko przeanalizować kod, do kiedy nikt o takiej praktyce nie wie to oczywiście nie będzie zaglądał ale w przypadku ujawnienia ktoś wyciągnie listę domen oraz dowie się co z nimi robimy.

Nie znam się na pozycjonowaniu, ja tu tylko zużywam transfer i miejsce w sql.

Roman Kluska ujawnia: nadchodzi INFLACYJNY ARMAGEDON!

 

Odnośnik do komentarza
Udostępnij na innych stronach

Zainteresuj się Google AJAX Search API - tam są większe limity, swego czasu w ten sposób ściągnąłem site dla ponad 1k stron bez żadnych banów. Na dole strony którą podałem jest przykład jak to wywołać z PHP. Jedyna wada to taka że sprawdzane w taki sposób site jest niższe niż sprawdzane normalnie przez www.

Polecam moje pluginy do WordPress'a: WyPiekacz, Meta SEO Pack, User Locker, Google Integration Toolkit i wiele innych :)

Poradnik Webmastera ‰ Ostatnio na blogu:

PoradnikWebmastera-Blog.1.gif

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.

×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności