Skocz do zawartości

Gdyby odwiedził Was taki pająk


Daniel Kędzierski

Rekomendowane odpowiedzi

Jeżeli odwiedzi Was taki pajączek:

Citybot /1.0

to nie myślcie że to jakiś [ osoba domniemana o popełnienie przestępstwa lub wykroczenia ] e-mail.

Pobieram domeny do wyników wyszukiwania.

Pajączek czyta robot.txt więc można go zblokować.

wstawiając disallow: Citybot

Interpretuje także znaczniki meta zakazujące.

Nie jest transferojadny :-).

Dodatkowo można

ustawić na stronie jakiej jej części ma nie indeksować poprzez umieszczenie tych częsci między znacznikami:

od <!--/citybot_noindex--> ZAWARTOŚĆ NIE INDEKSOWANA <!--citybot_noindex--> po tym znaczniku reszta strony jest indeksowana.

Robot pobiera tylko adres główny witryny nie indeksując podstron.

Podstrony i domeny można mu zgłaszać za pomocą formularza tutaj: www.city4you.pl/addurl.php - strona zostanie zaindeksowana online

Odnośnik do komentarza
Udostępnij na innych stronach

MF jego działanie przerobiłem na bardziej przyjaznego użytkownikówi.

Kilka zasad działania.

Jego zadanie: zaindeksować do 20 MLN domen. - wyliczenia na bazie bazy o pojemności 160 GB.

Jak to może stać się możliwe by zaindeksować tyle domen/stron www i nie obciążyć bazy danych.

Przygotowałem formularz ADD URL poprzez który każdy może dopisać swoją stronę.

Ważnym elementem jest fakt iż nie będą indeksowane strony które zawierają mniej niż 10 słów - później ta opcja zostanie zmieniona na opcję średniej statystycznej względem bazy np. 100 tys domen.

jeżeli średnia wyniesie np. 100 słów na stronie to będzie można to uznać za pewien standard i strony z taką ilością będą wyżej pkt.

REINDEKS stron włacza się tylko wtedy jeżeli nasz domena jest już w bazie, jeżeli nie wiemy czy jest wystarczy dodać ją normalnie a komunikat nas o tym powiadomi.

REINDKES komunikat 2 - jeżeli reindeksujemy domenę a od ostatniej indeksacji nie było żadnych zmian komunikat nas o tym powiadomi.

Indeks poprzez ADDURL jest w trybie on-line - reindkes w skrajnym wypadku przy np. 50 mln domen będzie bardzo długi - lecz jak pisałem można to zrobić samemu.

Bardzo długo jeszcze sam będzie reindeksował w krótkich odstępach czasu ale czas ten będzie się wydłużał względem przyrostu ilości domen.

Ale stale i szybko będzie podążał za nim drugi pająk zwany Link Checker - którego zadaniem będzie sprawdzanie stanu domen.

Jeżeli będzie inny kod niż 200 domena zostanie usunięta z bazy.

Link Cheker także przedstawia się CITYBOT więc jak zablokujemy CITYBOT to link checker także nie będzie nas sprawdzał.

przy okazji jak ktoś chce sobie poszukać połamanych linków to można tutaj/

www.city4you.pl/linkchecker.php

Obecnie to wszystko stoji na takim marnym sprzęcie w przeciągu tygodnia przeskakuje na łacza 10 GBIT i jego prędkość znacznie się poprawi.

Będzie można także nabywać tam różne po bardzo promocyjnych cenach usługi:

Jak Hosting zakładany w trybie online, Domeny rejestrowane w trybie Online, profesjonalne statystyki.

Jak już zostanie to przeniesione na ten mocny serwer będzie można na okres testowy 1 MSC zakładać sobie boksy reklamowe wyświetlane nad wynikami - w boksie może znajdować się logotyp.

Katalog stron jest w trakcie budowy - tzn aktualnie przygotowywana jest sensowna - nie na ilość - rozbudowa kategorii.

Dodając stronę do katalogu i po jej akceptacji nie będzie konieczności dodawania ręcznie podstron,

Strony które będą w katalogu będą indeksowane z głebokością do 3 linków w dal.

Obecnie przyrost domen jest na poziomie 5000 na dobę myślę że po przeniesieniu tego na nowy serwer przytrost ten wyniesie znacznie więcej.

Obecnie przygotowuje dodatki które:

tak jak w opcji no_index -->

będą pomijały pewną grupę znaczników

takich jak znaczniki komentarza.

Na ranking strony wpływa wiele rzeczy -

zawartość strony,

metatagi,

czestotliwosc odswiezania

keywords w adresie uwzględniając PROMINENCE czyli jego położenie

np. adres http keywords .pl/strona .pl będzie wyżej niż

http domena . pl / keywords.html

Odnośnik do komentarza
Udostępnij na innych stronach

Jak juz temat o tym to tez powiem, cos... Ja mam system na 2mb serwerze w Polsce. Narazie nie jest wszystko zroione... lecz...

www.owiwo.com <- Wpisujac https://www.1p.pl/ (narazie nie spradza formatu linku i nie filtruje go, wiec czasami moze dzialac nie poprawnie)

Oto wyniki: https://www.owiwo.com/search.php?query=http...%2Fwww.1p.pl%2F

System pobiera tresc strony, linki wew i zew.

Pobiera tresc stron zew.

Jesli mi sie uda to bedzie wyszukiwarka z systemem TrustRank.

www.governo.it

Odnośnik do komentarza
Udostępnij na innych stronach

Proweb powiedz mi taką rzecz -

hm jak zamierzasz napisać wyszukiwarkę z Trust Rank - skoro to chyba system opatentowany a zasady działania Trust Ranka nie są jawne a jedynie gdybane i przewidywane.

Rozumiem że chcesz napisać system który będzie wyliczał ocene na bazie przypuszczanego trust ranka.

Choć ja bym się osobiście nie odważył - z powodu MASZYNY do obliczeń - jak dla mnie wymagałoby to już niesamowitej maszyny pod względem obliczeniowym chyba że z założenia zakładasz mały indeks.

Generalnie na sam indeks wmiarę szybki to łącze 10 mbitow.

A drugi osobny serwer na samo wypluwanie wyników.

Teraz zakładając maszynę obliczeniową a widzialem taką fajną jak byłem w ACI :-) to koszt takiego bajeru zabija nie jednego człowieka.

Chyba że masz jakieś pomysły które nie wymagają mocy obliczeniowej

Odnośnik do komentarza
Udostępnij na innych stronach

Hm ale ja ciągle uważam że tematyka do czego linkujemy jest bardzo ważna.

Kiedyś dla testu dałem 10 linków wychodzących!!! do stron o wysokim PR i ocenie Google i powiązanych tematycznie, bez linków zwrótnych i moja strona testowa osiągneła wysoką pozycje.

Wiadomo nie mozna tego stosować w pozycjonowaniu bo kto :-) chce linkowac do konkurnecji.

hm, a jak wykluczysz przykładową siatkę stron ?

Bowiem te rozwiązania w spamie są już dawno stosowane.

Dajmy przykład:

posiadając baze ponad 300 tys różnych fraz które są wpisywane w Google i kierują ruch na stronę, odmiana słów itd bo tak tylko rozumiem powiązanie strony w tematyczną lub nie tematyczną.

Więc algorytm musiałby przed określeniem rankingu najpierw sprawdzić tematykę strony czyli przeanalizować słowo po słowie przy czym to że sam kod ma 10 KB jeszcze nic nie oznacza.

OK mamy analizę strony - rozumiem że tematyka stron nie będzie szeroka tak więc.

Strona zawierająca słowo POZYCJONOWANIE będzie przypisana do ? kategorii stron Internet ? czy GPS ?, jeżeli zajdziesz dalej i zechcesz porównywać każde słowo tzn, jeżeli przy pozycjonowanie znajdzie się GPS to tematyka strony wcale nie dotyczny pozycjonowania w wyszukiwarkach.

Uważam że do zbudowania takiego rankingu nie wystarczy skrypt 10 KB, po 2 analiza językowa, umiejętność dopasowania najczęściej występujących połączeń słów a do tego musisz mieć naprawdę ogromną baze.

Tylko na bazie indeksu kilku milionów stron jesteś wstanie powiedzieć że strona zawierająca zwrot "Reklama Internetowa" jest prawidłowa a strona zawierająca zwrot "Reklama Ogórki" to prawdopodobny zlepek słów i należy obniżyć wartość takie strony względem tematyki.

Na bazie kilkumilionowego indeksu algorytm pozna że na stronach największa ilość trafień występuje dla tego zwrotu czyli 1.

2 sprawa - aby opanować tego typu algorytm wystarczyłoby wygenerować skrypt który w szybki sposób tworzyłby doorwaypage tematyczne a to jest sprawa 5 min.

Choć nie sądze że wymagałoby to aż tak ciężki doorwaypage, wystarczyłoby aby taki doorway generował dla strony tematycznej o reklamie stronę która z bazy pobiera np.

reklama

reklama tychy

reklama video

reklama telewizyjna

reklama szczecin

reklama poznan

reklama radiowa

reklama warszawa

marketing reklama

reklama prasowa

reklama zewnetrzna

reklama swietlna

reklama wizualna

reklama polityczna

reklama spoleczna

i rozmieszcza te słowa co 3,4 inne losowo wybrane poczym umieszcza wynik w cachu.

Tak więc bardzo szybko można byłoby oszukać taki algorytm.

DLa przykładu wpisz jako poszukiwanie słowo reklama tutaj.

www.city4you.pl/reklama.html

zwróć uwagę żę strona jest tematyczna linkuje do podstron wewnętrzych i zewnętrzych o tej samej tematyce, posiada tematyczne metatagi i tematyczną zawartość.

Czy Twój engin uznałby że ta strona jest NAJ ?

a jeżeli nie to dlaczego nie ?

I teraz wyobraź sobie że robię 200 takich stron które się crossują.

Mają różny kontent bowiem przecież generowany na bazie np. kilku milionów słów.

Z mojego punktu widzenia jest to zbyt mało trafna ocena oczywiście chcąc walczyć ze spamem.

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności