Потихоньку приближаюсь к цели: создать генератор человекоподобного русского текста(обычные слова, не Цепи Маркова, не Би-, Три- и прочие граммы). Стоит ли продолжать? Народ, вы будете это покупать? По какой цене? В каких объемах?
Ну здесь всё будет зависеть от качества текста на выходе. То, что он будет уникальным - это конечно понятно, но вот его осмысленность... Просто если использовать его для наполнения саттелитов и ГС под биржи - это одна стоимость и потребность, а если он будет в состоянии генерировать статьи по теме - здесь уже совсем другое предназначение, а про цену я тогда вообще молчу. В любом случае, думаю, что продолжать стоит.
вот еще пример: что еще предстоит: 1) учесть частоту встречаемости отдельных слов в текстах(сейчас все на чистом рандоме) 2)почистить базу(интересно, как я это буду делать, в базе 90к слов, больше 10 словоформ на каждое...)
зачастую копипаст оценивается поисковиком гораздо лучше чем генренка. До вменяемого текста очень далеко. Может лучше смотреть в сторону корпуса русского языка http://ruscorpora.ru/ и генерить из уже готовых предложений?