СИНТАГРУС СЕГОДНЯ


2019. № 3 (21), 14-41

Институт проблем передачи информации им. А. А. Харкевича РАН

Аннотация:

В статье описывается современное состояние корпуса СинТагРус, содержащего русские тексты с морфосинтаксической разметкой. На различных стадиях работы над корпусом были введены дополнительные типы разметки: лексико-семантическая, лексико-функциональная, анафорическая и микросинтаксическая.

Данные морфосинтаксической разметки предложения включают морфологический разбор каждого слова и синтаксическую структуру предложения в виде дерева зависимостей в соответствии с моделью «Смысл ↔ Текст» И. А. Мельчука и А.К. Жолковского. Лексико-семантическая разметка предполагает, что для каждого слова указана соответствующая ему статья комбинаторного словаря русского языка. Лексико-функциональная разметка представляет собой выделение в текстах словосочетаний, допускающих интерпретацию в терминах лексических функций. Результатом анафорической разметки является маркирование антецедентов местоимений. Микросинтаксическая разметка идентифицирует встретившиеся в текстах синтаксические фраземы и некоторые нестандартные синтаксические конструкции.

Разметка новых текстов корпуса выполняется в несколько стадий. Вначале тексты обрабатываются многофункциональным лингвистическим процессором ЭТАП-4, который в автоматическом режиме вносит в них морфосинтаксическую и лексико-семантическую разметку. Затем результаты работы процессора проверяются и при необходимости корректируются квалифицированными лингвистами- аннотаторами. После этого ЭТАП-4, используя построенные морфосинтаксические структуры, выполняет лексико-функциональную и анафорическую разметку.

Лингвисты проверяют и корректируют эти типы разметки и вручную вносят в тексты микросинтаксическую разметку.

Корпус СинТагРус используется для целей теоретико-лингвистических исследований, а также для практической лексикографии. Статистика корпуса может учитываться при автоматической обработке текстов для оптимизации принимаемых решений. Весьма перспективно использование данных корпуса в системах, основанных на машинном обучении.