[projekt] icep.pl - sprawdzarka backlinków

krzycho · 2 Września 2012

Witam,

Postanowiłem stworzyć własną sprawdzarkę backlinków. Opiera się ona na autorskim robocie, który obecnie odwiedza ok. 600 tyś url'i dziennie. Bazę postaram się aktualizować co kilka dni, obecnie w bazie znajduje się ponad 51mln odnośników(robot odwiedził ponad 3 mln stron). Zawiera ona głównie polskie strony(raczej pilnowałem bota na domeny .pl, .eu, .com).

Funkcjonalność:

-sprawdzanie tekstu zawartego między tagami <a></a>

-sprawdzanie parametru rel

-wyświetlanie ip z jakiego pochodzi link

-eksport do pliku csv

Z racji tego, że baza jest spora i wywołuje obciązenie serwera chciałbym przeprowadzić zamknięte testy.

Wszystkie osoby chętne testować proszę napisać pare słów czym się państwo zamują(pozycjonowanie własnej strony, firma pozycjonerska, itp.) na adres test@icep.pl lub na mój skype.

Konta testowe będą posiadały limit zapytań- 500, w razie potrzeb będzie rozszeżany.

Przykładowe screeny(dla demotywatory.pl):

Kontakt:

admin@icep.pl

skype: krzycho1024

krzycho · 4 Września 2012

Zauważyłem niechęć do kontaktu w celu testowania, więc proszę użyć klucza: pio

2000 zapytań- w razie wykorzystania będę co jakiś czas restartował.

Oprócz tego aktualizacja bazy- ponad 59 mln rekordów obecnie.

Jeżeli ktoś by jednak chciał konto tylko dla siebie proszę o kontakt.

Zdaję sobie sprawę, że obecnie baza mocno odstaje od komercyjnych rozwiązań, jednak chciałbym usłyszeć opinie na temat ilości i jakości znalezionych rekordów- więszkość stron pozycjonowanych powinna mieć przynajmniej 1 link odnaleziony.

Mion · 5 Września 2012

Opiera się ona na autorskim robocie

W "czym" napisany - PHP ? Jaka baza obsługuje ten system ?

krzycho · 5 Września 2012

PHP- wątek odpala dzieci za pomocą proc_open, wspomagany systemowym ps- bo czasem procesy `utykały` i posix_kill

wątek ściagajacy- cURL+DOMDocument

baza MySQL- MyISAM

Zastanawiam się czy opłaca się na c przepisywać- obecne rozwiązanie jest dość elastyczne i ściąga 600-800tyś stron dziennie. Myślę, że to dość dobry wynik

Obecnie pracuje to na 1 komputerze: 2*xeon 3.06(na szynie 533), 4gB ram(pozyskałem ibm xserver 225 i pomyślałem o zagospodarowaniu go), raid0 na 4*36gB z kontrolera który w tym ibm siedzi(bo akurat tyle dyskow sprawnych mam) i dysk SSD 120GB do katalogu bazy podmountowany.

Możliwe, że dostawie poprostu 2 komputer do ściągania(mam notebooka core duo 1.73, 1.5gB ram którego nie używam).

zgred · 5 Września 2012

pytanie z innej beczki [offtopic]: dyski SSD są w rzeczywistości używane do szybkiego odczytu oraz wolnego zapisu - wiec ile czasu wytrzymują w serwerach, które wymagają notorycznego zapisu danych ? Jeszcze niedawno było to max 4-5 miesięcy.

golum · 5 Września 2012

Jak były jeszcze niedopracowane, wytrzymywały ~1mln cykli. Obecnie pewnie więcej.

Gdzieś w teście czytałem, że mają ok. 10 razy mniejszą żywotność.

krzycho · 5 Września 2012

W pierwszych eee pc były podejżenia, że dysk może nie wytrzymać bo tam był na 4 kościach nand- ale jakoś nie słyszałem, żeby komuś padł.

A jeżeli chodzi o wydajność, to mam podpięty pod kontroler(marki via) na PCI 32 bit i SSD wytrzymuje większe obciążenie przy wielokrotnych zapisach/odczytach od tego raid0- a transfery realne przy kopiowaniu 50-70mB/s(zależnie od danych, przy pustym pliku z zerami w środku nawet powyzej 100mB/s- prawdopodobnie jakaś kompresja idzie) przy kopiowaniu z raidu na SSD i w drugą stornę mniej więcej tak samo.

Mion · 5 Września 2012

Myślę, że to dość dobry wynik

Zrobiłem pewien eksperyment polegający na pobraniu wskaźnika google site dla 4.000 SeoKatalogów programem UltraSEOMaster.

Po zsumowaniu site dla wszystkich zaindeksowanych katalogów lista adres;site;pr dostępna tutaj wyszedł wynik 81087634 ~ 81 milionów

Wiec tyle stron musiał by Twój robot pobrać. Pobranie to jedno biorąc pod uwagę tylko wychodzące z wpisów masz do zapisania w bazie:

- jeden link: 81.087.634

- dwa linki to: 162.175.268

- trzy linki: 243.262.902 < 243 miliony linków

Tak wygląda TYLKO dla samych SeoKatalogów które stanowią promil tego co być musiał przeszukać i zapisać w bazie danych.

RZUCASZ SIĘ KOLEGO Z MOTYCZKĄ NIE MOTYKĄ I TO NIE NA NASZE SŁOŃCE ALE VX CANIS MAJORIS.

krzycho · 6 Września 2012

Zdaje sobie sprawe ze sieć to jedno wielkie bagno i jest masa farm linków, więc raczej stawiam na zróżnicowanie adresów do których bot zagląda, a nie przekopywanie się przez farmy- w związku z czym regularnie czyszcze bazę kolejkową, aby nie było zbyt dużo rekordów z danej domeny oraz ip(bo bywa ze domeny maja od groma subdomen linkujących do siebie).

W przypadku stron o których chciałem się czegoś dowiedzieć takie rozwiązanie sie sprawdziło- na podstawie próbki linków z bazy mniej więcej dowiedziałem się jak polinkowane jest kilka interesuących mnie stron(w połączeniu z backlinkwatch).

Wiadomo, że strony dobrze polinkowane zostaną napewno odwiedzone, strony słabo polinkowane mają niską na to szansę.

Baza ta nigdy nie będzie miała nigdy zawierać wszystkich linków z google, ani być porównywalna z bazą ahrefs czy opensiteexplorer- ma stanowić tylko niskobudżetową próbkę- jak ktoś będzie chciał sie dowiedzieć większość linków jakie posiadają storny zapłaci 99$ co miesiąc(albo jak storna ma tylko 5 linków można sie dowiedzieć w ramach demo).

Co do rozmiarów- 65mln rekordów z indexem zajmuje 33gB, lub ~16gB po wywaleniu pól z pełnym html linka, data pierwszego zauważenia linka oraz sumy kontrolnej służącej dodawaniu nowych linków(te pola nie muszą być na serverze hostującym stronę), więc jeszcze troche linków mogę pozbierać- jak dysk ssd sie zapcha to będę myślał co dalej(czy przy ~300mln rekordów baza jest użyteczna i opłaca się rozbudowywać ją dalej).

Mion · 6 Września 2012

Baza ta nigdy nie będzie miała nigdy zawierać wszystkich linków z google, ani być porównywalna z bazą ahrefs czy opensiteexplorer- ma stanowić tylko niskobudżetową próbkę

W tym wypadku nie ma racji bytu coś takiego.

Albo narzędzie będzie lepsze od dostępnych, albo nie będzie nim zainteresowani, bo będzie bezużyteczne. Zapytanie o linki do systemu który z założenia ma być taki jak twój czyli bardzo niedokładny mija się z celem. Jak napisałem wyżej na przykładzie samej grupy seokatalogów by narzędzie było miarodajne w tym zapytaniu musiało by mieć w bazie przeskanowane i zapisane linki ze wszystkich dostępnych stron jakie są w katalogach. I nic tego Kolego nie zmieni dlatego...

Oczywiście możesz mieć inne zdanie...

krzycho · 9 Września 2012

Przepisałem na C program ściągający(odpający procesy dalej jest w PHP):

-curl do ściągania

-mysql do wiadomo czego

-uriparser do budowania url

-iconv do konwersji znaków

-ręcznie napisane szukanie tagów meta charset i a(liniowe przejście po ściągniętych danych)

-zrezygnowałem z rozwiązywania nazw na ip za każdym razem(można potem wybrać unikatowe rekordy)

-suma kontrolna wyliczana za pomoca XOR zamiast MD5

Spokojnie kilkaset procesów ściągających odpala na raz.

Problemem póki co okazał się nie brak miejsca na dysku, tylko modem(właściwie router z wbudowanym modemem) VDSL2 który zaczą się zawieszać co niecałe 15 minut(przy rozwiązaniu php wieszał się co pare godzin- pewnie dlatego, że było niższe obciążenie) oprócz tego zrzuca aktywne połączenia co 1-2 minute...

Może w wolnej chwili pomyśle nad bridge dla tego modemu- albo uda mi się na allegro niedrogo jakiś vdsl kupić, żeby z bridge się bawić nie psując sobie internetu.

Jak by ktoś był zainteresowany kodem, bazą, miał wolne łącze i komputer, żeby to odpalać to zapraszam do kontaktu na skype.

Projekt jest dla mnie raczej eksperymentem.

shad · 9 Września 2012

Kiedyś coś podobnego w ramach eksperymentu popełniłem w PHP teraz ostatnio w Javie. I generalnie do tego celu mySql raczej średnio się nadaje. Z doświadczenia najlepszym rozwiązaniem jest użycie bazy typu key=>value oraz bazy pamięciowej jako podręczną pamięć cache.

Mion · 10 Września 2012

Problemem nie jest funkcja robota przeszukującego podstrony sieci, ale składowanie danych oraz szybki dostęp do nich.

ravau · 18 Września 2012

Twórcy google też się rzucali z motyczką na Słońce i co? I wygrali Świat.

Mion · 18 Września 2012

Twórcy google rzucili się z motyką na której końcu było na start 1.000.000 $

Zaloguj się

[projekt] icep.pl - sprawdzarka backlinków

Rekomendowane odpowiedzi

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Zarchiwizowany

Ostatnio przeglądający 0 użytkowników

Polecamy

Współpracują z nami

Powiadomienie o plikach cookie