Skocz do zawartości

jak zrobić robota?


jarmiar

Rekomendowane odpowiedzi

  • Odpowiedzi 45
  • Dodano
  • Ostatniej odpowiedzi
Bot?

np.

file_get_contents("www.pl");

i robisz z tym co chcesz.

Sam też kiedyś pisałem bota w php ale strasznie zasobożerny był bo wiadomo wyrażenia reguralne+mysql+zapis do pliku.

A ja zrobiłem w PHP robota niezasobożernego. Niedługo udostępnię wyniki jego pracy - ale po dokończeniu testów.

Oczywiście mówię o pająku wyszukiwarki.

Nakładka na Windows - zmień za darmo wygląd swojego systemu operacyjnego.

(Obrazek avatar chroniony prawami autorskimi)

W wolnej chili, jeżeli masz temat, na który chcesz pisać, możesz napisać ciekawy artykuł lub reklamę tekstową w biuletynie informacyjnym poświęconym publikowaniu opinii oraz oferującym darmową reklamę z odnośnikami w treści.

Odnośnik do komentarza
Udostępnij na innych stronach

IMO nie ma sensu robic bota w jakimkolwiek języku skryptowym. No chyba, ze ma raz dziennie sprawdzać czy coś zmieniło się na stronie pani jadzi ;)

Póki co dociąganie plików trwa dłużej niż ich analiza - trzeba było tylko optymalnie pisać. A tak przy okazji moja wyszukiwarka będzie odwiedzać daną stronę (i wszystkie jej podstrony) tylko raz w miesiącu (nie będzie takich akcji jak ma googlebot - niejednokrotne stwierdzenie tu na forum, że googlebot zjadł serwer).

Oczywiście buforowanie plików CSS jest zrobione. Podczas przeszukiwania calej witryny pliki CSS, o ile nie przekraczają one liczby 8 sztuk, są żądane tylko raz.

Takie funkcje jak explode, implode są bardzo zoptymalizowane, a pisanie tych funkcji oraz implementacja tablic asocjacyjnych w VPascalu/jakimś darmowy, C++ byłoby katorgą.

Poza tym mam przenośność kodu. Mogę uruchomić skrypt pod linuchem, windowsem oraz MacOSX (w zależności czym w danej chwili dysponuję).

Jak zamieszczę nową wyszukiwarkę na stronie dam znać (bot będzie chodził u mnie lokalnie łącząc się zdalnie z mysql).

Nakładka na Windows - zmień za darmo wygląd swojego systemu operacyjnego.

(Obrazek avatar chroniony prawami autorskimi)

W wolnej chili, jeżeli masz temat, na który chcesz pisać, możesz napisać ciekawy artykuł lub reklamę tekstową w biuletynie informacyjnym poświęconym publikowaniu opinii oraz oferującym darmową reklamę z odnośnikami w treści.

Odnośnik do komentarza
Udostępnij na innych stronach

(...)implementacja tablic asocjacyjnych w VPascali/jakiś darmowy C++ byłoby katorgą.

W ramach ścisłości - C++ posiada wsparcie dla tablic asocjacyjnych (kontener map), a odpowiedniki explode i implode mozna znaleźć w necie ;-)

No ale to pewnie tylko przykłady, więc nie będę nakłaniał do używania C++, bo to autor wie najlepiej w czym napisze najoptymalniejszego bota, z uwagi na fakt, że najlepiej zna zapotrzebowanie...

Na emeryturze po SEO zajmuję się R&D.

Odnośnik do komentarza
Udostępnij na innych stronach

(...)implementacja tablic asocjacyjnych w VPascali/jakiś darmowy C++ byłoby katorgą.

W ramach ścisłości - C++ posiada wsparcie dla tablic asocjacyjnych (kontener map), a odpowiedniki explode i implode mozna znaleźć w necie ;-)

No ale to pewnie tylko przykłady, więc nie będę nakłaniał do używania C++, bo to autor wie najlepiej w czym napisze najoptymalniejszego bota, z uwagi na fakt, że najlepiej zna zapotrzebowanie...

Zgadza się, to były tylko przykłady. Napisać implode i explode by się dało, a nawet już to zrobiłem do innych celów w VP.

PS. A skąd jest to stwierdzenie, że Gb napisano w pythonie. Przecież takich rzeczy goog nie ujawnia. ATPO zapytam o te tablice asocjacyjne dla C++ - czy zachowują się tak samo jak te z php. Liczby w indeksach pewnie trzeba wtedy konwertować na napisy.

Apropo zapotrzebowania, to no i tak ograniczy mnie 900MB baza danych. Strona będzie miała za zadanie pokazać, że ilość linków w sieci nie odzwierciedla jakości strony. Nowa wyszukiwarka zwracać będzie na treść oraz oceniać stronę (całą witrynę) pod znalezionymi kluczowymi frazami (algorytmu nie zdradzę) oraz umożliwić osobom nie mającym dużej ilości wartościowych linków pojawienie się w wyszukiwarce). Wyszukiwarka ta odnajdywać będzie całe serwisy o danej tematyce a nie pojedyncze podstrony. W końcu w miarę dobrze wykrywa farmy linków - ostatnia wykryta to (sorry, że to napiszę, ale algorytm wykrył "farmę") - kataloblog jednego z naszych kolegów - kataBLOG'a.

Innym zadaniem jest pokazanie, że spam jest zły - chodzi o ukrywanie CSS-em treści na stronie.

Przeszukiwarka posiadać będzie filtry "pomiń": "farmy linków", "sklepy", "strony pornograficzne", "strony wulgarne". Każdy filtr można wyłączyć przed kliknięciem szukaj.

Zastanawiam się, czy nie udostępnić też opcji "wyświetl tylko" i opcje jak wyżej.

Jeżeli kogoś z was interesuje taka opcja i się do czegoś przyda to proszę o kontakt tu na forum lub na PW.

Nakładka na Windows - zmień za darmo wygląd swojego systemu operacyjnego.

(Obrazek avatar chroniony prawami autorskimi)

W wolnej chili, jeżeli masz temat, na który chcesz pisać, możesz napisać ciekawy artykuł lub reklamę tekstową w biuletynie informacyjnym poświęconym publikowaniu opinii oraz oferującym darmową reklamę z odnośnikami w treści.

Odnośnik do komentarza
Udostępnij na innych stronach

(..)Liczby w indeksach pewnie trzeba wtedy konwertować na napisy.

Mhm, ustala się typ zmiennej, którą indeksowana będzie tablica, więc wszystkie inty (przy założeniu, że wybraliśmy string) trza przekonwertować na string, np. przy użyciu ostringstream z sstream.

Na emeryturze po SEO zajmuję się R&D.

Odnośnik do komentarza
Udostępnij na innych stronach

(...) wszystkie inty (...) trza przekonwertować na string, np. przy użyciu ostringstream z sstream.

Czyli zamiast skupić się na opracowaniu algorytmu i użyciu prostego sposobu implementacji musiałbym myśleć nad konwersją typów i walczyć z 0xC0000005 EAccessViolation, co nie występuje (choćraz mi się udało PHP doprowadzić do takiego stanu z winy błędu w PHP 4).

To co musi być napisane w nieskryptowym języku to i piszę (link w stopce). Poza tym PHP jest najszybszym (jeżeli się mylę to proszę o post z informacjami) językiem skryptowym i bardzo zaawansowanym.

PS. i darmowym.

Nakładka na Windows - zmień za darmo wygląd swojego systemu operacyjnego.

(Obrazek avatar chroniony prawami autorskimi)

W wolnej chili, jeżeli masz temat, na który chcesz pisać, możesz napisać ciekawy artykuł lub reklamę tekstową w biuletynie informacyjnym poświęconym publikowaniu opinii oraz oferującym darmową reklamę z odnośnikami w treści.

Odnośnik do komentarza
Udostępnij na innych stronach

Poza tym PHP jest najszybszym (jeżeli się mylę to proszę o post z informacjami) językiem skryptowym i bardzo zaawansowanym.

I zawsze można skąpilować do fastcgi lub bytecode.

Aplikacje internetowe, systemy wspomagające SEO, programy pod Windows i Linux, info na https://shad.net.pl - dopisz się do Katalogu Firm

Odnośnik do komentarza
Udostępnij na innych stronach

PHP prosty ? To zależy jakimi kryteriami będziemy oceniać.

Kiedyś chciałem pisać pracę dyplomową w PHP i dostałem odpowiedz od jednego profesorka ze on tej efemerydy to nie będzie dotykał.

W sumie to się nie dziwię autorzy PHP troszkę za bardzo idą w kierunku ułatwiania dla początkujacych programistów PHP.

Jeżeli ktoś che pisać robota o nie ma co zabraniać, byle by tylko upublicznił źródła bo wtedy bedzie z tego jaka korzyść.

Ewentualnie widzę sens pisania robota w celu zassania jakiejś strony przepuszeczenie ją przez jakies filtry magiczne i wyplucie nowej strony.

Język programowania w sumie nie ma znaczenia, najlepiej pisać w czymś co się umie albo zna się kogoś kto pomoże w pisaniu. Bo uczenie sie samemu zajmuje za dużo czasu :)

Odnośnik do komentarza
Udostępnij na innych stronach

  • 2 tygodnie później...

Długo włosa jeżeli mogę zapytać.

Jakie zasoby sprzętowe przeznaczasz na wyszukiwarkę.

Pytanie w związku z (mój robot będzie zasysał strone główną i jej podstrony tylko raz w miesiącu.)

Gdzieś doczytałem że czynić to będziesz z neostrady - na neostradzie nawet najszybszej nie jesteś wstanie przejechać 10% zasobów nie wspominając już o analizie i wyszukiwaniu tych danych.

Jak możesz napisać jakie zasoby sprzętowe przeznaczasz na to, jakie pasmo, jakie maszyny do składowania i wyszukiwania danych. Sam swojego czasu borykałem się z problemem lecz u mnie dość odwrotnym. Nie na pobieraniu stron tylko na ich analizie i wyszukiwaniu wraz ze wzrostem ilości dokumentów.

Jak możesz napisać w jaki sposób sobie poradziłeś z przeskoczeniem możliwości pasma neostrady względem ilości pl dokumentów będę wdzięczny. Z moich obliczeń wynika że łącze i 100 mbitów byłoby za słabe do indeksacji PL na reindeksy miesięczne.

Odnośnik do komentarza
Udostępnij na innych stronach

  • 4 tygodnie później...

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.

×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności