Skocz do zawartości

Markov i zło wszelakie


bolesna_prawda

Rekomendowane odpowiedzi

Jak myślicie? Czy Google ma jakieś patenty na wykrywanie tego typu sieczki? Jest to w ogóle możliwe? I czy w ogóle jest to opłacalne ekonomicznie, jeśli takowe sposoby istnieją. Chodzi mi oczywiście o jakieś algorytmy, a nie niewolników w SQT przeglądających internet strona po stronie. Wiadomo, ze jakąś moc obliczeniową trzeba by na to zużyć, a internet jest sporych rozmiarów.

Odnośnik do komentarza
Udostępnij na innych stronach

Da się z dużym podobieństwem - jeśli nie 100% - algorytmicznie określić, że dany tekst został wygenerowany markovem, dlatego myślę, że strony tego typu są podsyłane do ręcznego przeglądu SQT (dla pewności). Jeśli tak nie jest to w Google siedzą idioci ;)

Na emeryturze po SEO zajmuję się R&D.

Odnośnik do komentarza
Udostępnij na innych stronach

Jest kilka bibliotek (np. z projektu Morfologik), które radzą sobie nieźle z językiem polskim i można wyjść od analizy "zgodności gramatycznej" wyrazów w zdaniu. Można też skonstruować model języka i za jego pomocą analizować prawdopodobieństwo wystąpienia danego zdania (implementacje markova, które widziałem nie analizują prawdopodobieństwa istnienia zdania jako całości, tylko prawdopodobieństwo wystąpienie po sobie 2-4 wyrazów). Można punktem wyjścia uczynić rozbiór logiczny zdania itd. Wszystko wymaga trochę czasu i testów, ale jest do zrobienia ;)

Na emeryturze po SEO zajmuję się R&D.

Odnośnik do komentarza
Udostępnij na innych stronach

LanguageTool ze strony Morfologika daje trochę do myślnia. Teraz jakoś nie widzę banowania stron wypełnionych sieczką z generatora, jedak może to się zmienić w niedalekiej przyszłości.

Istnieją jakieś ogólodostępne dane statystyczne dotyczące języka polskiego? Np. w tm momencie interesuje mnie coś w stylu wykresu szansy na wystąpienie zdania w zależności od jego długości. W przyszłości pewnie dojdą również inne zależności. Obecnie słabo obracam się w tej tematyce, więc niezbyt wiem pod jakimi hasłami mogę tego szukac.

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności