Skocz do zawartości

Generator tematycznego tekstu w różnych językach


qlwik

Rekomendowane odpowiedzi

Znacie może jakiś generator tematycznego tekstu w takich językach jak en, de, fr, it, es, ru, nl czy innych?

Mogą być oczywiście płatne, dowolna wersja, desktopowa lub na serwer,

bo coś znaleźć nie mogę.

A może ktoś mógłby coś takiego zrobić?

Tani, szybki i niezawodny hosting, już od 35zł rocznie  - Webhosting1st

Sklep z częściami do laptopów.

 

Odnośnik do komentarza
Udostępnij na innych stronach

  • Odpowiedzi 30
  • Dodano
  • Ostatniej odpowiedzi

Posiadam zarówno WAC jak i KM. Oba pracują wyłącznie w języku EN (WAC ma translator wbudowany, jako osobne narzędzie - efekt taki sam jakby tłumaczyć poprzez google). Nie są to też stricte generatory tekstu, raczej scrapery + mieszacze paragrafów/zdań + synonimizacja na poziomie słów. Tak to z grubsza wygląda.

Sygnaturkę z linkiem przyznam sobie po napisaniu 15 wartościowych postów. Prawdopodobnie nigdy.

Odnośnik do komentarza
Udostępnij na innych stronach

Podepnę się do tematu - zna ktoś jakiś sensowny generator treści (nie mieszarkę/scraper)?

To co popularne w necie w większości przerobiłem, ale to są w zasadzie właśnie scrapery i mieszarki.

Nie chodzi mi o zwykły generator "sieczki", ale narzędzie chociaż w podstawach wykorzystujące NLP, semantykę, wektorową reprezentację tekstu.

Interesują mnie też rozwiązania zamknięte/nieoficjalne, jeśli jest możliwość skorzystania z nich (PW).

Odnośnik do komentarza
Udostępnij na innych stronach

Mamy na PiO świetnego i do tego bardzo elastycznego a ponadto naprawdę symaptycznego programistę, który prawie zrealizował taki projekt https://www.forum.optymalizacja.com/topic/175939-synoglota-zaawansowany-synonimizator-tekstu/?p=1262107

Odszukałem, Wy męczycie o realizację, ja się pod tym podpisuję :)

Sygnaturkę z linkiem przyznam sobie po napisaniu 15 wartościowych postów. Prawdopodobnie nigdy.

Odnośnik do komentarza
Udostępnij na innych stronach

@tomus993 - popraw mnie, jeśli się mylę, ale jak tam nie widzę nic związanego z NLP czy semantyką - jedynie łańcuchy Markowa, ale to akurat jest wykorzystywane do poprawy unikalności.

@Konik^Morski podrzucił niezłe narzędzie, napisałem już do autora e-mail w tej sprawie. Kto również jest chętny na taki soft/taką funkcjonalność może zaplusować ten wpis - jak będzie kilka osób, to możemy się zrzucić na jakąś prywatną wersję premium albo jakoś inaczej ogarnąć temat.

Odnośnik do komentarza
Udostępnij na innych stronach

Dzięki Wszystkim za zainteresowanie tematem! :)
Pozwoliłem sobie odpowiedzieć bezpośrednio tutaj, podzielić się przemyśleniami i dopytać o kilka rzeczy.

Zrobiłem sobie zgrubny przegląd narzędzi, do wspomnianych wyżej dorzuciłbym jeszcze SEO Content Machine i Content Foundry.
W sumie to większość z nich działa podobnie, tzn. wykorzystuje:
- pobieranie artykułów z sieci/własnej bazy
- tłumaczenie artykułów
- synonimizację
- mieszanie zdań/akapitów

- łańcuchy Markova

Właściwie jest to proste podejście dające na wyjściu "tematyczne" teksty o w miarę dużej unikalności, które przy uwzględnieniu Markova nie łapią się na proste automatyczne metody wykrywania generowanego tekstu. Trudno tu jednak mówić o jakiejkolwiek semantyce, bo ta znika po wymieszaniu zdań (chyba, że ktoś pozostanie na tłumaczeniu tekstu i ew. synonimizacji - wtedy semantyka jest zachowana z dokładnością do błędów tłumaczenia/synonimizacji).

Pytanie, czy da się zrobić (nie zakładając projektu na 10 lat :) ) narzędzie, które działa zupełnie inaczej i które generuje teksty, w przypadku których można mówić o jakiejkolwiek semantyce?
Bo w zasadzie to "poprawności" tych tekstów "pilnuje" zbudowany (w oparciu o korpus złożony z wielu przykładowych tekstów) model statystyczny danego języka/języka i tematyki.

Jeśli takie narzędzie bazuje na "szablonach" tekstów zbudowanych w oparciu o bazę artykułów i wypełnianych słowami o zbliżonym znaczeniu, to może jest z grubsza zachowana semantyka, ale w praktyce to rozwiązanie jest bliskie synonimizacji, a co za tym idzie ma swoje wady (bo ile tekstów można w ten sposób wygenerować? :) ).
Jeśli z kolei generowanie bazuje głównie na modelu statystycznym, to może faktycznie jest to generator, ale trudno mówić o jakiejkolwiek semantyce (za to tekst może być tematyczny w sensie zachowania nasycenia słowami kluczowymi). Właściwie mamy wtedy do czynienia z "generatorem sieczki", który przynajmniej nie daje się "wykryć" Markovem.

I teraz pytanie do Was: czego brakuje wspomnianym wcześniej narzędziom (które swoją drogą pozwalają na dużo i "współpracują" z innymi programami, a do tego pracują na tekstach w wielu językach)?

Pozdrawiam,
Damian

Odnośnik do komentarza
Udostępnij na innych stronach

Bo w zasadzie to "poprawności" tych tekstów "pilnuje" zbudowany (w oparciu o korpus złożony z wielu przykładowych tekstów) model statystyczny danego języka/języka i tematyki.

Mówisz o wykorzystaniu czegoś gotowego czy budowie jakiegoś własnego modelu?

ale w praktyce to rozwiązanie jest bliskie synonimizacji, a co za tym idzie ma swoje wady (bo ile tekstów można w ten sposób wygenerować? :) ).

Każdy język jest ograniczony ilością słów, możliwych zwrotów i wyrażeń.

Jeśli z kolei generowanie bazuje głównie na modelu statystycznym, to może faktycznie jest to generator, ale trudno mówić o jakiejkolwiek semantyce (za to tekst może być tematyczny w sensie zachowania nasycenia słowami kluczowymi). Właściwie mamy wtedy do czynienia z "generatorem sieczki", który przynajmniej nie daje się "wykryć" Markovem.

Tutaj chyba jesteśmy najbliżej prawdy, ale jeszcze nie do końca.

Może być sieczka "sieczka" oraz sieczka zgodna z modelem języka.

Może ja to za bardzo uprościłem w pierwszym poście. Semantyka jako znaczenie/tematyczność to jedno a zgodność języka z modelem to drugie.

I teraz pytanie do Was: czego brakuje wspomnianym wcześniej narzędziom (które swoją drogą pozwalają na dużo i "współpracują" z innymi programami, a do tego pracują na tekstach w wielu językach)?

Ja chcę po prostu zdefiniować X wierszy słów/fraz/wyrażeń kluczowych i dostać X tekstów zawierających te wyrażenia, które to jednak teksty koniecznie muszą być zgodne z matematycznym modelem danego języka.

Każdy język komunikacji można przedstawić w sposób matematyczny. Można ocenić, czy dany zapis/zestaw znaków/tekst jest mającym sens językiem nie znając znaczenia nawet jednego słowa.

Nie jestem programistą, nie wiem co z tego będzie przydatne, ale myślę, że można zerknąć tutaj:

https://pl.wikipedia.org/wiki/Natural_Language_Toolkit

https://cogcomp.cs.illinois.edu/page/software/

Odnośnik do komentarza
Udostępnij na innych stronach

Mówisz o wykorzystaniu czegoś gotowego czy budowie jakiegoś własnego modelu?

Mam już taki model (do ew. powiększenia w oparciu o kolejne teksty).

Ja chcę po prostu zdefiniować X wierszy słów/fraz/wyrażeń kluczowych i dostać X tekstów zawierających te wyrażenia, które to jednak teksty koniecznie muszą być zgodne z matematycznym modelem danego języka.

To jest jak najbardziej osiągalne. Pytanie, czy wspomniane wcześniej narzędzia już tego nie robią dostatecznie dobrze?

Nie jestem programistą, nie wiem co z tego będzie przydatne, ale myślę, że można zerknąć tutaj:

https://pl.wikipedia.org/wiki/Natural_Language_Toolkit

https://cogcomp.cs.illinois.edu/page/software/

NLTK nawet kiedyś używałem. ;)

Dlaczego mam tyle wątpliwości: próbuję zrozumieć, czego brakuje wymienionym wcześniej narzędziom i czy nie wyprodukujemy ich klona okrojonego o X "pobocznych" funkcjonalności.

Odnośnik do komentarza
Udostępnij na innych stronach


próbuję zrozumieć, czego brakuje wymienionym wcześniej narzędziom

Poczekam, czy ktoś to napisze "otwartym tekstem" ;) Jeśli nie to wyślę Ci maila później. W skrócie - obawy bezzasadne na pewnej płaszczyźnie BHS :)

Sygnaturkę z linkiem przyznam sobie po napisaniu 15 wartościowych postów. Prawdopodobnie nigdy.

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.

×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności