Skocz do zawartości

TrzymaczList - program do przechowywania list z harvestu


mlody0072

Rekomendowane odpowiedzi

Witam 
Popełniłem taki o to mały program do przechowywania list z harvestu oraz list docelowych. 
Zalety:

  • sprawdzanie unikalności na podstawie root domeny dla danej grupy skryptu,
  • podział na pojedyncze listy można pobrać cały skrypt lub tylko pojedynczą listę tak jak wrzucaliśmy,
  • przechowywanie loginów i haseł jeśli skrypt tego wymaga,
  • przechowywanie footprintów dla danej grupy skryptów 
  • OSTATNIE I NAJWAŻNIEJSZE możliwość pobierania parametrów z Majestic.com: Trust Flow, Citation Flow, External Backlinks, Referring Domains*

Minusy:

  • NIE ZNALEZIONO ;)

Cena: 60zł netto*
Licencja przypisana do domeny. 
Zamówienia proszę składać przez sklep: https://sklep.piersa.pl/?34,trzymaczlist
 
 

*Pierwsze 3 osoby otrzyma aplikację za 50zł netto. 

// Propozycje modyfikacji mile widziane. 
// Aktualizacje / modyfikacje będą płatne lecz nie obowiązkowe 
 
 
Wymagania: 
- PHP5.3
- MySQL,
- Crontab co 1 minutę,
- Moduł file_get_contents,
- mcrypt_module_open(),
- Moduł cURL,
- Biblioteka IonCube,
 
Galeria  


trzymacz-home.jpg

Strona główna - zarządzaj listami

trzymacz-dodaj-liste.jpg



Dodaj listę


trzymacz-dodaj-skrypt.jpg



Dodaj skrypt


trzymacz-zarzadzaj-skryptami.jpg



Zarządzaj skryptami


trzymacz-zarzadzaj-footpreing.jpg



Zarządzaj skryptami - pokaż footprint


trzymacz-synonimizator-xneolinks.jpg



Synonimizator do xneolinks
 


* nie daję gwarancji jak długo ta metoda będzie działać, ogólnie utrzymuję ją przy życiu już prawie dwa lata. 

bilbord_opublikuj_mini.png

Odnośnik do komentarza
Udostępnij na innych stronach

Można by dać ew. taką funkcję jak np. sprawdzanie danych skryptów po footprincie i na tej podstawie zaklasyfikowanie ich do danego skryptu. Tylko to mogłoby mocno obciążać serwer ale zawsze można by jakieś małe listy tak przefiltrować.

 

Pytanie natomiast o to majestic - ile trwa mniej więcej pobieranie danych dla listy np. 1000 urli?

kodeks-logo-baner-pio.jpg

Blog z informacjami o prawnych aspektach związanych z funkcjonowaniem internetu, w tym problematyka dotycząca SEM i SEO. organisciak.pl

Odnośnik do komentarza
Udostępnij na innych stronach

Ja bym to widział tak (apropo funkcjonalności programu):
1. Wrzucam liste do Twojego softu.
2. Soft identifykuje (używając regułek które mogą być zmieniane przez użyszkodnika) liste wrzucając ją do odpowiednich plików (discuz, easyblog itp).
3. Gdy robie kolejny harvest, soft ponownie wykonuje to co w punkcie 2, na koniec usuwa unikalne domeny lub url (definiowane w ustawieniach), albo nie sprawdza danego url jeżeli on występuje w bazie zawierajacej wszystkie zidentyfikowane adresy.

4. Soft co X godzin sprawdza ponownie czy dane miejscówki nadal zawierają w kodzie footprint odpowiadający danemu skryptowi.

5. Dodaj w miarę możliwości sprawdzanie domain authority / page authority w moz.com.
6. Sprawdzanie PA/DA/TF/CF etc dla dowolnej listy wrzuconej do softu bez jej identyfikacji, sortowania itp jako dodatkowa opcja. W efekcie można sprawdzić np listę domen expired itp.

 

Sprawdzanie ms jest ograniczone do sześciu adresów na minutę. Czyli ponad 8 tys na dobę.

 

To dla niektórych może być niewiele, każdy kto seo zajmuje się poważnie ma troche priv proxy które mógłby wrzucić również do Twojego softu i zrobić z nich dodatkowy użytek. Albo kupić pakiet anonimowych proxy w proxylive i używać do sprawdzania parametrów majesticseo i moz.
 

Sprawdzania po footprint unikalem właśnie z powodu obciążenia serwera

 

VPSy chodzą dzisiaj naprawdę tanio, każdy może dobrac sobie coś idealnego pod względem kosztów i wydajności. Poza tym podejrzewam że wydajność na linuxie będzie większa niż na windowsie, czyli to co można zrobić GSA platform identifier na windowsowym dedyku Twoim softem będzie można zrobić na vpsie.

 


Mion zrobił dobry soft do rozpoznawania skryptów

 

Zrobił, ale bez takiej funkcjonalności jak Twoja, bez ładnego frontendu. Ludzie kupują oczami ;)

Odnośnik do komentarza
Udostępnij na innych stronach


Ja bym to widział tak (apropo funkcjonalności programu):

 

Da się wszystko zrobić lecz muszę nad tym się zastanowić czy warto powielać jest softy które już umieją to robić :) 

 


5. Dodaj w miarę możliwości sprawdzanie domain authority / page authority w moz.com.

 

Mam już na to patent lecz nie jest jeszcze udostępniany. 
 

 


6. Sprawdzanie PA/DA/TF/CF etc dla dowolnej listy wrzuconej do softu bez jej identyfikacji, sortowania itp jako dodatkowa opcja. W efekcie można sprawdzić np listę domen expired itp.

Robimy export do excela i możemy wszystko sortować jak chcemy. 

 


To dla niektórych może być niewiele, każdy kto seo zajmuje się poważnie ma troche priv proxy które mógłby wrzucić również do Twojego softu i zrobić z nich dodatkowy użytek. Albo kupić pakiet anonimowych proxy w proxylive i używać do sprawdzania parametrów majesticseo i moz.

 

Nie chce udostępniać tego bez limitu ponieważ jak się każdy dorwie do sprawdzania to po tygodniu przestanie ta opcja działać, ja reanimuje cały czas tą opcję od prawie dwóch lat i działa do dziś :) Druga spraw parametrów nie sprawdzamy dla samego harvestu ale dla listy docelowej czyli da samych sukcesów a wątpię że ktoś robi takie listy powyżej 10 tys wartościowych miejscówek. Później podniosę limit do 10 na minutę to będzie ponad 14 tys na dobę to powinno każdemu wystarczyć, powyżej mogę zrobić pakiet płatny. 

 

 


VPSy chodzą dzisiaj naprawdę tanio, każdy może dobrac sobie coś idealnego pod względem kosztów i wydajności [....] Twoim softem będzie można zrobić na vpsie.

Wydajność samych połączeń do innych stron to nie problem nawet i 20 tys na minutę lecz obciążenie bazy danych to jest największy problem przy listach powyżej 1 mln adresów a taką listę to nie problem zharvestować :)  

 


Zrobił, ale bez takiej funkcjonalności jak Twoja, bez ładnego frontendu. Ludzie kupują oczami

Mion jak by chciał to by stworzył to w PHP i z ładnym wyglądem lecz postawił na prędkość. Zapewne testował wiele rozwiązań i to przeważyło, że powstała taka aplikacja a nie inna. 

Nie mówię, że jest to nie możliwe ale na pewno jest utrudnione. W php curl jest szybko wykrywany przez większość stron i blokowany taki adres (przerabiałem to przy harvesterze proxy) udało się w pewnym stopniu to rozwiązać. 

 

 

Poczekajmy na innych co napiszą :) 

 

Ronaldo płacze jak piszę tego posta 

 

 

bilbord_opublikuj_mini.png

Odnośnik do komentarza
Udostępnij na innych stronach


Może moja wypowiedz nie będzie w 100% obiektywna ale na pewno wartościowa dla innych. Z Adamem współpracuję już dobre dwa lata, ogólnie napisał ten skrypt dla mnie aby można było jakoś organizować wszystkie listy. TrzymaczList pomaga filtrować unikalne adresy ponieważ robimy harvest wrzucamy wszystko do trzymacza wiadomo za jakiś czas powtórzymy harvest na te same footprinty po dodaniu wszystkich adresów do trzymacza doda tylko te nowe i stworzy podlistę z datą dodania co za tym idzie jeśli mamy xneoliksa to nie musimy mielić całej listy jeszcze raz tylko te nowe adresy a na pewno się sporo adresów powtarza. 

 

Pobieranie danych z MS jest wystarczające co prawda mam u siebie 10 adresów na minutę to bez problemu daje radę jeden plus, że dane pobieramy bez dodatkowych kosztów inne softy tego nie potrafią, co prawda Adam zawsze mi mówi, że to może z dnia na dzień przestać działać i nie daje gwarancji lecz tak straszy już prawie pół roku :) 

 

Z aplikacji korzystam gdzieś od marca od tamtej pory Adam ją przebudował diametralnie pierwsze wersje nie były idealne ale w tej postaci jest pełnowartościowy produkt i robi to co powinien. Naprawdę gorąco polecam za takie pieniądze nic nie znajdziecie z takimi funkcjami.

Odnośnik do komentarza
Udostępnij na innych stronach


Może moja wypowiedz
Tylko czy na pewno, to jest twoja wypowiedź  ;)

---

 

Mion zrobił dobry soft do rozpoznawania skryptów.
Też uważam, że  CMSdetektorNET jest dobry, bo jest szybki i umożliwia przetwarzanie relatywnie dużych <wielomilionowych> list URL'i... ale "Janusze" <Mariusze> hehe oczekują zupełnie czego innego - pełnego automatu... ale o tym za chwilę.

 

Natomiast, co do TrzymaczList, to IMHO trochę dziwna koncepcja na "soft".

// Propozycje modyfikacji mile widziane.

 

Jeśli lubisz wyzwania i nie obce są Tobie  techniki przetwarzania dużych ilości danych, żądań HTTP, kolejkowania zadań, to rozważ napisanie czegoś czego nie ma lub nie ma ww ogólnym dostępie, a mianowicie automatu, który będzie:

 

- harwestował dane z rożnych źródeł na bazie zdefiniowanych footprint< janusze> będą chcieli by od razu była pełna lista footprint w sofcie by czasami nie musieli pisać własnych ;

- rozpoznawał skrypty oczywiscie jak wyżej ;

- dla rozpoznanych domen pobierze SEO parametry - z tego co Piszesz masz to opanowane;

- co jakiś czas będzie sprawdzał czy domeny rozpoznane nadal zawierają to co zawierały;

- harwestowanie > rozpoznawanie > sprawdzanie > będzie co jakiś czas automatycznie powtarzane na wypadek pojawienia się nowych miejscówek;

 

Niestety do tego dochodzą problemy związane z samych harvestowananiem i proxy, ale od razu możesz dodać, to co np nie ma Wytrwały żniwiarz - reaktywacja proxy za pomocą capctha i zewnętrznego OCR'a.

 

Aplikacja webowa a nie okienkowa czyli z interfejsem przeglądarkowym nadaje się bardzo dobrze do tego gdyż w zasadzie wszystkie operacje wykonywane są w tle, a w panelu admina tylko ustawiamy nowe zadania, forinty itd.

 

Sądzę, że soft o funkcjonalności jaki opisałem znalazł by wielu chętnych i to nie za 30 zł czy też 60 netto.

 

:chatownik:

 

 

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach


Natomiast, co do TrzymaczList, to IMHO trochę dziwna koncepcja na "soft".

Możesz rozwinąć czemu dziwna ? 

Tak można sobie takie coś w plikach trzymać i innymi softami filtrować lecz staje się to nie wygodne. Przemek pewnego dnia do mnie zadzwonił i mówi ze Adam takie coś by się przydało usiadłem na przysłowiom kolanie napisałem, po modyfikacjach wyszło to co widać teraz :) 

 

 


Sądzę, że soft o funkcjonalności jaki opisałem znalazł by wielu chętnych i to nie za 30 zł czy też 60 netto.

Jest już coś podobnego https://freshscraper.i4a.pl/i jakoś nie jest oblegany :) 

 

Rozumiem że na swoim serwerze możemy dawać swoje footprinty ale jak Ty to nazwałeś "Janusze" (przy okazji Pozdrawiam mojego dobrego kolegę Janusza :)) i tak swoich fotosów nie zrobią to nie lepiej im kupić dostęp za 50zł na miesiąc i nie martwić się o serwer minumum 20zł na miesiąc + proxy + cena za soft + aktualizacje ? 

 

 

bilbord_opublikuj_mini.png

Odnośnik do komentarza
Udostępnij na innych stronach

Możesz rozwinąć czemu dziwna ?

Bo jak sam napisałeś po harvestowaniu ma zapisane w plikach i przeważnie są, to duże pliki np te co sam harvestowałem miały po kilka kilkanaście M <milionów> np 3 miliony linii z 100MB pliku, więc wgranie tego na serwer nawet jako TXT, to dodatkowo robota natomiast do bazy, to już prawie nierealne i na pewnie nie na hostingach niewspółdzielonych za 20 zł / miesiąc. Natomiast czy Trzymacz w obecnej postaci jest potrzebny weryfikuje < ... fakt mamy wakacje ...>  rynek ;)

 

Jest już coś podobnego https://freshscraper.i4a.pl/ijakoś nie jest oblegany

Wcale się nie dziwię ...

 

 

Rozumiem że na swoim serwerze możemy dawać swoje footprinty ale jak Ty to nazwałeś "Janusze" (

Mówiąc o "Januszach" to miałem na myśli userrów którzy nie potrafią pisać footpronty, a "Mariuszach" :hello: - miałem na myśli naszego kolegę z PiO który zawsze mi wbijał do głowy by wszystko robiło się automatycznie przy jak najmniejszej ilości kliknięć.

 

 

i nie martwić się o serwer minumum 20zł na miesiąc + proxy + cena za soft + aktualizacje ?

Zrobić narzędzie produkcyjne dla "zawodowców", dla których zakup serwera dedykowanego lub mocnego VPS'a + abonament <ten musi być> nie stanowi problemu, bo korzystanie z "narzędzia" będzie im przynosić dochody.

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

@Mion - zawodowcy często zlecają tego typu programy szyte pod swoje konkretne wymagania. Napisałem już niejeden program (php) na zamówienie  - niektórzy otwarcie piszą, że nawet jeśli coś podobnego udostępnię, to i tak wolą zlecić dokładnie to co chcą.

Odnośnik do komentarza
Udostępnij na innych stronach

@UP - zgadza się, ale w tym konkretnym wypadku wymagania = realizowane funkcje są uniwersalne.

---

Dobrym przykładem będzie, tu skrypt sklepu gdyż nie wszyscy zawodowcy żyjący ze sklepów internetowych zlecają pisanie oprogramowania sklepu od podstaw, bo zwyczajnie im by się to nie kalkulowało .

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności