КОМБИНИРОВАННЫЙ СЛОВАРНО-НЕЙРОСЕТЕВОЙ АКЦЕНТУАТОР ДЛЯ РАЗМЕТКИ РУССКОГО ПОЭТИЧЕСКОГО ТЕКСТА


2022. № 3 (33), 181-190

Национальный исследовательский университет «Высшая школа экономики»

Аннотация:

В статье описан процесс создания комбинированного словарно-нейросетевого акцентуатора, который был реализован для разметки русского поэтического текста. Потребность в разработке такого инструмента возникла в связи с недостаточно высоким качеством существующих аннотаторов. Более того, задача акцентной разметки русских текстов нетривиальна, поскольку для этих текстов характерны наличие омографов и разноместность ударений. В ходе работы мы сравниваем существующие инструменты для разметки русского поэтического текста, основанные на словарном и нейросетевом подходах: правиловый аннотатор А. Полякова и аннотатор авторского коллектива под руководством Е. Черняк, основанный на модели искусственных нейронных (рекуррентных) сетей. Анализ инструментов включает в себя сравнение численных метрик качества (accuracy) и классификацию ошибок. Далее мы рассматриваем варианты совмещения этих двух аннотаторов для достижения лучшего качества. Принцип работы итогового комбинированного акцентуатора заключается в том, что сначала слова, в которых ударение определено однозначно, размечаются при помощи правил, а остальные — при помощи нейронных сетей. Таким образом, нам удалось достичь более высокого качества автоматической акцентной разметки русского поэтического текста.