Простой подход к автоматическому количественному анализу поэтического текста на примере романа в стихах «Евгений Онегин»
Аннотация:
Методы обработки естественного языка широко используются для решения прикладных (веб-поиск, классификация документов), так и научных проблем (исследование семантики слов с использованием моделей word2vec). Тем не менее, для анализа поэзии такие методы используются не так часто. В этой статье мы демонстрируем простой пример подхода к задаче анализа данных, применительно к поэтическим текстам. Мы показываем, что простой набор утилит для обработки текста может сэкономить значительное количество ручной работы. Набор состоит из бесплатного морфологического анализатора Yandex mystem, простого веб-приложения для ручного снятия неоднозначности, реализованного на JavaScript, и утилит на Python для определения ударения в словах и агрегации данных. Обработка текста опиралась на регулярные выражения. Подход был применен к классическому тексту «Евгений Онегин». Текущий уровень развития современных языков программирования и соответствующих библиотек (например, библиотека nltk для Python) позволяет еще быстрее разрабатывать приложения для анализа данных для текстов. Тем не менее, подход, описанный в статье, может быть использован в качестве примера для дальнейшего количественного исследования поэтических текстов.