Skocz do zawartości

SYNOGLOTA - zaawansowany synonimizator tekstu


dziki_rysio_997

Rekomendowane odpowiedzi

  • Odpowiedzi 242
  • Dodano
  • Ostatniej odpowiedzi
  • 2 miesiące temu...

W tym tygodniu dostałem zapytanie od jednego z Użytkowników o możliwość wykorzystania programu Synoglota w tworzonym na własne potrzeby projekcie.

Chciałem zapytać, czy są tu zainteresowani następującym rozwiązaniem (prawdopodobnie moduł byłby płatny; nie zastanawiałem się nad ceną) - w formie API:

- synonimizator (uruchomiony na desktopie lub VPS z Windows) działa jako serwer i nasłuchuje na na zapytania (tekst do przetworzenia + wskaźnik "jakości" synonimów)

- w odpowiedzi zwraca tekst w formacie zsynonimizowanym lub wygenerowane teksty

Do tego byłaby biblioteka kliencka w PHP czy Pythonie.

Czy warto coś takiego stworzyć - jak sądzę, pomagałoby to głównie tym, którzy lubią automatyzować pracę (np. przy generowaniu zaplecz/dodawaniu wpisów itp.)?

Odnośnik do komentarza
Udostępnij na innych stronach

  • 6 miesięcy temu...

Witam,

testowałem na 2 maszynach i mam ten sam problem.

"Synonimizacja DUŻEGO pliku" + suwak synonimów na MAX + opcja "opuść słowa oryg." ON

maszyna: dedyk 8 rdzeni (i7) 16GB RAM, zasoby minimalnie wykorzystane wg task managera.

plik wejściowy 77k unikalnych linii, waga ok. 11 mega.

Efekt: Okienko tail.exe 1 przebieg OK, 2 etap zatrzymuje się na 400/1000

W sumie "problem" to wielkie słowo, mogę sobie poradzić z przygotowaniem tych plików oczywiście na wiele innych sposobów, ale ciekawy jestem :)

Sygnaturkę z linkiem przyznam sobie po napisaniu 15 wartościowych postów. Prawdopodobnie nigdy.

Odnośnik do komentarza
Udostępnij na innych stronach

Wydaje mi się, że 11MB to już nieco za dużo. Jeśli dobrze pamiętam to testowałem program na 2MB, może 4MB tekstu (ale tego drugiego nie jestem pewien na 100%).
Program jest niestety kompilowany jako 32-bitowy, więc w pełni tych 16GB pamięci nie wykorzysta. Przypuszczam, że właśnie w pamięci mógł być problem i w chwilę po tym, jak program uderzył w "sufit" zużycie pamięci już bardzo spada, więc już tego nie widać.

Proszę spróbować podzielić na pliki ok. 2MB - gdyby z nimi był problem, proszę o kontakt na e-mail/PW - dopytam o szczegóły. :)

Odnośnik do komentarza
Udostępnij na innych stronach

Mam takie pytanie, jeśli dodam tekst do synoglota około 4000 znaków i zsynonimizuje tekst ustawiając sówak zagnieżdzenia synonimów na środku to ile tekstów mogę wygenerować aby karzdy miał przynajmniej 60-70 % unikalności?

Zapraszam na moje strony: Ciekawostki, teksty na zamówienie, jeśli potrzebujesz dobrych tekstów, zapraszam do współpracy.

Odnośnik do komentarza
Udostępnij na innych stronach

  • 4 tygodnie później...

Mam takie pytanie, jeśli dodam tekst do synoglota około 4000 znaków i zsynonimizuje tekst ustawiając sówak zagnieżdzenia synonimów na środku to ile tekstów mogę wygenerować aby karzdy miał przynajmniej 60-70 % unikalności?

Przepraszam za brak odpowiedzi. Rzuciłem okiem na pytanie, ale nie chciałem "strzelać", więc zostawiłem je sobie na później do sprawdzenia, o czym oczywiście zapomniałem (w takich sytuacjach proszę śmiało przypominać się na maila).

Co do pytania: dużo zależy od konkretnego przypadku i tego, jak dużo synonimów program dopasuje. Po wygenerowaniu tekstu program w lewym dolnym rogu pokazuje informację typu: "Maksymalna unikalność względem oryginału: 64%". Można powiedzieć, że to górna granica unikalności do osiągnięcia na danym ustawieniu jakości synonimów - w praktyce do osiągnięcia, gdy generujemy jeden tekst maksymalnie różniący się od oryginału, przy większej liczbie tekstów będzie raczej mniejsza.

Raczej stawiałbym na to, że aby osiągnąć 60-70% unikalności dla większej liczby tekstów (większej, niż kilka), trzeba dopuścić więcej synonimów.

Pomyślę nad opcją pomiaru wzajemnej unikalności dla wszystkich generowanych tekstów - wtedy byłoby to dobrze widoczne na podglądzie, przed wygenerowaniem.

Dostępna jest drobna poprawka dla wersji polskiej i angielskiej: Dotyczy problemu mnożenia nowych linii w przypadku masowej synonimizacji tekstów z opuszczaniem słowa oryginalnego. Można ją pobrać wywołując: "updater.exe" (w katalogu programu).

Odnośnik do komentarza
Udostępnij na innych stronach

  • 1 miesiąc temu...
  • 5 miesięcy temu...

Aktualizacja do wersji 1.5 jest już dostępna dla wersji polskiej. Posiadacze wersji 1.4 (i wyższych) mogą dokonać aktualizacji akceptując ją w programie lub przez wywołanie "updater.exe" w katalogu programu.
Wkrótce pojawi się podobna aktualizacja dla wersji angielskiej.

Co nowego:

  • Wykorzystanie darmowego API Yandex do tłumaczenia tekstów (klucz podajemy w konfiguracji, tam też jest odsyłacz do rejestracji klucza). Możliwe jest tłumaczenie jednego tekstu:

tlumaczenie.png

i masowe tłumaczenie tekstów w wybranym katalogu (opcja w menu "Zaawansowane"):

tlumaczenie_wielu.png

  • możliwość generowania plików PDF bezpośrednio z programu (dodatkowa opcja przy „Generuj do pliku”)
  • możliwość eksportu słownika synonimów
  • możliwość importu słownika synonimów
  • optymalizacja wyświetlania dużych słowników użytkownika
  • możliwość konfiguracji liczby widocznych słów w pionie (i zwiększenie zakresu w poziomie)
     

Zapraszam do korzystania z nowych funkcjonalności! :)

Odnośnik do komentarza
Udostępnij na innych stronach

Jak zwykle świetna robota ! 

 

moi przyjaciele nazywają mnie Chan Авент. Jeden z moja ulubiona pasje i zainteresowania tylko competing krokiet,
ale jestem debatingstosując nowe umiejętności. Podawanie właśnie dziewczyna использует jego normalnej pracy.
Lat temu pracownicy zamieszkał w Oklahoma.

 

Tylko czy nie wycinać "takich" ?

 

E: formatowanie txt.

 

Sygnaturkę z linkiem przyznam sobie po napisaniu 15 wartościowych postów. Prawdopodobnie nigdy.

Odnośnik do komentarza
Udostępnij na innych stronach

Tłumaczyłeś z angielskiego? Rozumiem, że chodzi o to, że Yandex prawdopodobnie tłumaczy do jakiejś swojej "reprezentacji" w j. rosyjskim i przy tłumaczeniu na docelowy potrafi jakieś "niedobitki" zostawić?
I przy założeniu, że tłumaczenie jest np. na polski, słowa pisane cyrylicą całkowicie wycinać?

Odnośnik do komentarza
Udostępnij na innych stronach

Tak, z angielskiego. Źródło za moment Ci wyślę na priv. Myślę, że ogromnej większości "zawodowych" pozycjonerów tych brakujących tam słów nie będzie specjalnie żal ;) i może lepiej to usunąć, żeby się nie rzucało w oczy ?

 

E: usunięte źródło.

Sygnaturkę z linkiem przyznam sobie po napisaniu 15 wartościowych postów. Prawdopodobnie nigdy.

Odnośnik do komentarza
Udostępnij na innych stronach

  • 3 tygodnie później...

Generowanie do pdfów działa przepięknie! Jednak pliki generowane są z "pustymi" meta, czy będzie możliwość definiowania własnych {a|b} danych meta?

 

Dobry pomysł. Myślę, że w najbliższych dniach rzucę okiem na kilka drobiazgów (głównie feedback po ostatnich zmianach, pomijanie cyrylicy o której kolega wyżej pisał itp.), postaram się też zobaczyć, czy używana do PDFów biblioteka pozwala na ustawianie meta - w sumie to zdziwiłbym się, gdyby nie pozwalała. ;)

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.


×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności