Skocz do zawartości

Skąd brać content dla generatora treści aby się uczył?


MariuszT

Rekomendowane odpowiedzi

Witam.

Piszę sobie eksperymentalnie generator treści. Właściwie to mam już taką pierwszą wersję beta tylko nic z tego nie będzie póki program nie zacznie się uczyć. Do nauki potrzebuje duuuużo tekstów napisanych przez człowieka.

Poradźcie gdzie mogę znaleźć naprawdę dużo sensownej, poprawnej językowo treści po polsku? To może być cokolwiek, prawa autorskie mnie nie obchodzą bo te teksty nie będą nigdzie publikowane, program po prostu przetrawi je sobie i zapisze odpowiednie informacje w swojej bazie. Idealne teksty to takie bez udziwnień czyli bez nawiasów, cudzysłowów, nazw własnych, nazwisk itp. itd. Najlepiej byłoby gdyby to były same zdania twierdzące, pytające i wykrzyknikowe ale na to nie liczę :) Jeszcze dodam, że im dłuższy pojedynczy artykuł tym lepiej. Wolę jeden duży tekst na 10tys znaków niż 20 artykułów po 500 znaków.

Jakieś pomysły? Ja na razie pomyślałem o stronach typu sciaga.pl, takie wypracowania byłyby odpowiednie. Ale ja tego potrzebuję naprawdę dużo ;/ Trudno mi określić ile ale zakładam, że jakąś sensowną losowość w generowaniu osiągnę przy kliku GB treści do nauki. Im więcej tym będą lepsze wyniki.

PS

Wiem, że niektórym gotuje się krew gdy słyszą "generator treści" ale zaznaczam, że to tylko eksperyment. Wpadłem na kilka pomysłów i chcę sprawdzić czy moje założenia są słuszne ;)

PS 2

Nie bardzo wiedziałem gdzie się wcisnąć z tym tematem, jeżeli jest lepsze miejsce to przepraszam i proszę o przeniesienie.

Sprzedam artykuły, 1 grosz za 5000 znaków!

https://www.forum.optymalizacja.com/index.p...howtopic=126817

Odnośnik do komentarza
Udostępnij na innych stronach

Oleq, przemyślałem wiele rozwiązań typu analiza językowa (które podmiot, które orzeczenie, stosowanie zasad gramatycznych itd.), sieci neuronowe, łańcuchy markova i jeszcze kilka innych wynalazków i po przeanalizowaniu tego wszystkiego wymyśliłem własny twór.

Będę się chwalił jak coś mi z tego wyjdzie, na razie muszę potestować i wymyślić jak zachować tematyczność generowanej treści :)

Sprzedam artykuły, 1 grosz za 5000 znaków!

https://www.forum.optymalizacja.com/index.p...howtopic=126817

Odnośnik do komentarza
Udostępnij na innych stronach

To chyba zależy jaka polszczyzną ma pisać generator treści ;)

Jak to ma być Piękny Sienkiewicz to pakuj beletrystykę.

Jezeli generowane będa strony a'la wiadomości z gazety to parser strony gazety.

Jeżeli ma być tekst młodzieżowy to umieszczaj teksty z for-dyskusyjnych.

Jeżeli jakaś specialistyczna tematyka to trzeba poszukać prac naukowych profesorków.

Ewentualnie wykorzystać google i z wyników wyszukiwania pobierać adresy stron które maja wartościowe content (tutaj trzeba tylko wymyślić algorytm oceniania co jest wartościowe a co nie aby nie uczyć śmieciami)

Widzę ze na forum dużo osób piszę podobne rzeczy :P

Odnośnik do komentarza
Udostępnij na innych stronach

Zależy mi na różnorodności. Czasami generator ma wygenerować zdanie pisane szorstkim i zwięzłym językiem a czasami ma to być piękne, długie zdanie z wieloma porównaniami itd.

Książki to dobry materiał bo są bogate w słownictwo. Artykuły prasowe też są ok chociaż bardziej zależy mi na publicystyce niż na typowych aktualnościach z racji długości tekstu. Język techniczny też może być tylko chciałbym uniknąć literatury specjalistycznej w której pojawia się wiele rzadko używanych zwrotów. For Internetowych chce unikać, mało kto pisze na nich długo i poprawnie językowo.

No dobra, a może jakieś konkretne adresy stron Wam przychodzą do głowy? ;) Mogę bez problemu napisać sobie parsery, które "przejadą" się po odpowiednich stronach i wydobędą treść tylko jakoś mało adresów mi do głowy przychodzi. Chyba muszę się zainteresować ebookami :P

Sprzedam artykuły, 1 grosz za 5000 znaków!

https://www.forum.optymalizacja.com/index.p...howtopic=126817

Odnośnik do komentarza
Udostępnij na innych stronach

Moze spr. zaciagac tresc poprzez kanaly RSS.

Jest tego calkiem sporo a czolowe serwisy daja konkretne teksty pod wzgledem tresci i dlugosci :)

I jest darmowe, czesto aktualizowane i praw autorskich tez nie lamiesz.

Jak w 1 miejscu trzymac wszystkie swoje ulubione linki www, kontakty, zadania i notatki ? notatnik.com.pl !

Odnośnik do komentarza
Udostępnij na innych stronach

Czy ja wiem...

Najlepiej byłoby zdobyć przemówienia naszych polityków, chyba nikt inny wypowiada nie tak dużo zagmatwanego pustosłowia. :)

Już pomijając fakt że to zwykle obietnice bez pokrycia.

Może jakieś książki, albo coś?

Zawsze marzyłem żeby pisać w preclach czternastozgłoskowcem. ;)

zrób to jeszcze raz pożegnasz się z forum...

Odnośnik do komentarza
Udostępnij na innych stronach

Czekam na wyniki takiego generatora, mialem do czynienia z sieciami neuronowymi i innymi wynalazkami ale nie wydaje mi sie zeby taki generator mogl wygenerowac cos co czlowiek uzna za naturalny tekst. Ciezko jest uniknac czesci wspolnych dla takiej tresci. A jesli nie bedzie to nie do rozpoznania dla czlowieka to cala zabawa nie ma sensu bo to i tak bedzie spam.

Oczywiscie nie to zebym zniechecal bo trzymam kciuki i chetnie zobacze jakies porbki wygenerowane z takeigo narzedzia, tym bardziej ze sam rozne narzedzia tworze.

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności