Skocz do zawartości

TESTUJCIE MOCNO


Daniel Kędzierski

Rekomendowane odpowiedzi

Mam prośbę - sprawdzam pewien mechanizm indeksująco wyszukiwawczy.

Indeksuje w 10 sekund nowo dodaną stronę - przynajmniej powinien.

Dodaje się tutaj https://www.szookacz.pl/search/search.pl?Mode=AnonAdd

dodawajćie maximum urli i sprawdzajcie wyniki

Spam i nie spam mile widzany

szuka się tutaj:

https://www.szookacz.pl/search/search.pl

jeżeli były jakieś problemy z indeksacją piszcie, możecie dodawać wszystko.

Co sądzicie o indkesowaniu w 10 sekund nowej strony i reindeksowaniu jej co 24 godziny.

Pzdr

czekam na info i uwagi

dzięki Szy za uwagę :-) i takie uwagi lubię. A nie wieczne uczepianie.

tak czy tak testować proszę

Odnośnik do komentarza
Udostępnij na innych stronach

zero :-) no znaczki się sypią, dlatego też testuje sobie tylko to coś.

Ale bardziej zależy mi na testowaniu samego algorytmu i spiderka.

szukanie i dodawanie z linków które podałem wyżej.

Dla następców ;-) pomyślmy że nie jest tam nic napisane, tylko dodaj szukaj :-)

Odnośnik do komentarza
Udostępnij na innych stronach

Dodawanie strony WWW do strefy 'My Realm 1':

Przeszukanie stron i aktualizacja bazy danych moga troche potrwa�. Prosze o cierpliwoô�...

-> Requesting 'https://hacking.pl/'... took 2 seconds.

Finished crawling. Now parsing files and updating index...

1. Büńd: https://hacking.pl/

Büńd: access denied by filter rule 'Forbid Sites' because the following strings were found in the Document Text: 'porno'. Found 2 instances and the minimum allowed is 1.

[ Redirects: https://hacking.pl => https://hacking.pl/ ]

There are now 111 web pages in the 'My Realm 1' realm - 0 records created; 0 updated; 0 removed.

Dodaj nowy adres

Enter a web address to start the crawler. When you submit the form, this script will retrieve the page over the web, and save its contents in the index.

Dodawanie strony WWW do strefy 'My Realm 1':

Przeszukanie stron i aktualizacja bazy danych moga troche potrwa�. Prosze o cierpliwoô�...

-> Requesting 'https://interia.pl/'... took 1 seconds.

Finished crawling. Now parsing files and updating index...

1. Büńd: https://interia.pl/

Büńd: access denied by filter rule 'Forbid Sites' because the following strings were found in the Document Text: 'seks'. Found 2 instances and the minimum allowed is 1.

[ Redirects: https://interia.pl => https://interia.pl/ ]

There are now 112 web pages in the 'My Realm 1' realm - 0 records created; 0 updated; 0 removed.

Dodaj nowy adres

Enter a web address to start the crawler. When you submit the form, this script will retrieve the page over the web, and save its contents in the index.

wpisałem hacking a on mi:

"Did you mean: HIGIENICZNE."

hm :D

nie zostawia słowa wyszukiwanego w elementach szukanych - zły pomysł.

takie coś nie przechodzi

https://www.szookacz.pl/szukaj.shtml?zoom_query=*

ale takie już tak

https://www.szookacz.pl/szukaj.shtml?zoom_query=**

Różnica ? Brak.

https://www.szookacz.pl/szukaj.shtml?zoom_q..._query=szookacz

jako wynik dostaje:

Search results for: szookacz

1 result found.

Did you mean: Szukaj.

1. Katalog - Katalog Stron Internetowych - Wyszukiwarka internetowa

Katalog stron dla wyników Najlepszy katalog stron internetowych, Wyszukiwarki Szczecin, wyszukiwarka internetowa szczecin, sprawdź wyszukiwarka inter ...

... :// markpol.biz Plastics Kunststoff Plastics http :// www.plasticsbuy.com Katalog Stron Dodaj firmę do katalogu Szookacz http :// www.katalog.szookacz.pl 1 2 3 4 5 Następna Linki Sponsorowane ...

URL: https://www.szukaj.szczecin.pl/

hm... ;)

https://www.szookacz.pl/szukaj.shtml?zoom_query=szook

jako pierwsza jest strona:

1. Pozycjonowanie, - SZOOK Katalog stron pozycjonowanie

Katalog stron pozycjonowanieSZOOK, reklama internetowa, pozycjonowanie stron ...

... SZOOK SZOOK, Katalog stron internetowych DMOZ-Na serwerze Szook Pozycjonowanie SZOOK SZOOK Adult Arts Business Computers Games Health Home Kids and Teens News Recreation Reference Regional Science ...

URL: https://www.katalog.pozycjonowanie.edu.pl/

szook.pl jest dopiero 3:/

https://www.szookacz.pl/szukaj.shtml?zoom_q...d=0&zoom_sort=0

daje coś takiego:

Search results for: total

49 results found.

5 pages of results.

Result Pages: << Previous 1 2 3 4 5 Next >>

Search took 0.695 seconds

na pewno tak powinno być?

https://www.szookacz.pl/szukaj.shtml?zoom_q...*&zoom_page=abc

Search results for: !@

No results found.

Search took 1.469 seconds

czyżby ignorował wsio po znaku # ??

https://www.szookacz.pl/search/search.pl?Mode=Admin

Chcesz mieć szybkiego hacka ? ;))

https://www.szookacz.pl/search/

czyżbym widział cały directory ? :(

https://www.szookacz.pl/search/searchmods/p...powerusr/pl.txt

tutaj mamy polską wersję językową,

zawartość pliku setpermission.sh

echo Setting permissions...

chmod 755 search.*

chmod 755 proxy.*

cd searchdata

chmod -R 777 .

chmod -R 666 *.*

cd ..

echo

Co znaczy '-R' ? Bo dzisiaj odkryłem komendy PUT i DELETE w protokole http, więc może jest miejsce na testy ? ;)))

dobra. wsio. I tak będziesz miał sporo zabawy z tym ;]

pozdr.

Odnośnik do komentarza
Udostępnij na innych stronach

nie, testuje tylko rozne filtry

PORNO bedą pozniej na zasadzie : strona czeka do moderacji

tzn. jezeli beda hasla z wysokiego ryzyka spamu, badz np. typu Lista Wildsteina to beda podlegaly moderacji.

Bo na nich jest najwiecej spamu,

A dlaczego w hacking.pl jest PORNO ? :-)

Odnośnik do komentarza
Udostępnij na innych stronach

no prosze :

https://www.szookacz.pl/search/search.pl?Ma...tworzenie+stron

i juz jestem pierwszy :mrgreen:

ogólnie mi sie podoba, tylko jak strona bedzie odswiezana a w indeksie beda np 2 mln stron to czy serwery to wytrzymaja ?

fitr any pornosowy to by byla fajna rzecz - kiedys myslalem o czyms takim ale to by nie bylo latwe:

robot musialby wchodzic na strone co 24h i sprawdzac czy nie ma na stronie takich tresci - to by ominelo taka akcje ze ktos da inny content - zglosi strone jako spis przepisów kulinarnych a na drugi dzien podmieni tresc ;)

pozdrawiam,

ps - jestem pierwszy na wszystkie moje slowa - zycze Ci zeby szookacz stal sie popularniejszy od google - ale bym na tym tez skorzystal :D

Dla tych co lubią na biało i dla tych co na czarno:
logo_ap.jpg godmodelogo.jpg

Odnośnik do komentarza
Udostępnij na innych stronach

zymn to wersja testowa i nie jest to wersja ktora chodiz na szookacz.pl

szookacz.pl/szukaj.shtml to co innego niz tamto.

Tamtym mozna sie bawic do woli :-).

Np moge ustawic slowa na moderacje i wtedy pokaze sie tak :-)

1. INTERIA.PL - Przyjazny Portal

poczta CZATeria randki strony www kartki zakupy dla komórki Muzyka INTERIA.PL INTERIA.PL...

URL: https://www.interia.pl/ - 71KB - 31 Mar 2005

[ Redirects: https://www.interia.pl => https://www.interia.pl/ ]

[ This page has been indexed by our crawler. It will be added to our index once we've had a chance to review it. ]

There are now 135 web pages in the 'My Realm 1' realm - 0 records created; 0 updated; 0 removed.

Heh

Już ci tłumacze,

Indeksowanie oparte jest o strefy - strefa serwer moze zawierac np. 1 mln stron ktore zreindkesuje co 24 H, tak jest teraz ustawione.

Można stworzyć strefę/serwer co 1 mln dokumentów.

Teraz jest wszystko OPEN do testów.

Co do banów typu SEKS SEX ustawię moderkę i wtedy będzie potwierdzenie i np. strona wiarygodna jak Interia.pl będzie dodana a inna np. sex nie.

Tak czy tak, stron z contentem SEX nie chce indeksować.

To co znalazłeś zYm3N nie ma nic wspolnego z szookacz.pl

tam chodzi indexer zoom indexer ze szczecina. ktory chodzi z mojego serwera.

Ten co testuje OPEN chodzi na ThePlanet i jak dodasz i zobaczysz w logi to ma Szookaczbot/1.2 (+https://wwww.szookacz.pl) na czas testów - jak będzie warty zainteresowania i uda mi się odkryć wszystko to ;-) kupię kalokacje w jakimś data center.

Narazie się pobawię tym i zobaczymy.

Myślę że dopiszą mi troszkę poprawek i będzie dobrze a serwery sobie poradzą spokojnie bo indeksowanie będzie bardzo wyfiltrowane.

Dlatego proszę dodawać masę wszystkiego :-).

Zanim powstanie dobra wersja minie sporo czasu, około 3-6 msc.

Powstanie pod osobną marką-nazwą :-) i będzie odbiegała od wersji testowych, bardziej na zasadzie będzie się na nich uczyć.

Tylko dzięki kilku różnym algorytmom mogę starać się robić dobre wyniki.

Co do tego że szook jest 3 ;-)

heh, akurat tutaj ustawień jest bardzo dużo, jak choćby ważność nazwy domeny która jest pominięta narazie.

Ale można od 5 do -5 regulować wagę każdego znacznika + contentu, wagę poszczególnych znaczników takich jak alt itp.

nawet można ustawić pozycję poprzez ilość spacji :-) w treści w stosunku do ilości słów.

Ustawień i możliwości jest wiele.

Pozdrawiam

Odnośnik do komentarza
Udostępnij na innych stronach

1. Büńd:

   Büńd: string 'https://www.śniardwy.pl' is not a valid HTTP URL. The hostname portion contains characters outside the allowed character set of a-z, 0-9, '.' and '-'.

Widzę, że na polskie znaki muszę poczekać;)

pzdr.

omnia mea mecum porto

In general, it could be argued from the consumer point of view that the better the search engine is, the fewer advertisements will be needed for the consumer to find what they want.
Odnośnik do komentarza
Udostępnij na innych stronach

moj windows razem z explorerem tez musza poczekac na polskie znaki bo strona https://www.śniardwy.pl mi nie dziala

do IE potrzebny jest jakiś plug-in, jeżeli się nie mylę, a strona bez problemów działa pod FF.

pzdr.

omnia mea mecum porto

In general, it could be argued from the consumer point of view that the better the search engine is, the fewer advertisements will be needed for the consumer to find what they want.
Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności