ПАРАЛЛЕЛЬНЫЕ ТЕКСТЫ В СОСТАВЕ НАЦИОНАЛЬНОГО КОРПУСА РУССКОГО ЯЗЫКА: НОВЫЕ ЯЗЫКИ И НОВЫЕ ЗАДАЧИ


2019. № 3 (21), 41-61

Институт русского языка им. В. В. Виноградова РАН; НИУ «Высшая школа экономики»

Аннотация:

В статье рассказывается об основных направлениях пополнения и содержательного развития параллельных корпусов НКРЯ за 2015–2019 гг. В разделе «Новые языки» речь идёт о новых языковых парах, возникших за этот период, об архитектуре и разметке соответствующих корпусов. По сравнению со списком языков, образующих двуязычные параллельные пары с русским и доступных в 2015 году, в НКРЯ появились следующие новые языки: башкирский, бурятский, китайский, литовский, финский, чешский, шведский. Продолжается традиция создания параллельной части НКРЯ при помощи ряда автономных российских и зарубежных команд, координирующих свои усилия с группой разработчиков Корпуса в Москве. Практически все новые языки ставили перед разработчиками Корпуса те или иные особые задачи, связанные с их морфологической или иной пословной разметкой. Существенно вырос за четыре года объём также некоторых из уже доступных в 2015 г. языковых пар.

В разделе «Новые задачи» раскрываются основные содержательные направления, разрабатываемые в рамках разных языковых корпусов — региональное разнообразие языка, жанровое разнообразие стилей, расширение функциональности и типов разметки и др. На настоящем этапе, как благодаря увеличению типологического разнообразия задействованных языков и письменностей, так и благодаря использованию более сложных морфологических анализаторов, существенно расширился набор дополнительных параметров разметки, поиск по которым может быть релевантен для работающего с параллельным корпусом. Цель включения в корпус образцов полицентричных языков стала одной из важнейших. Жанровое разнообразие корпусов, в 2015 году лишь намечавшееся, в 2019 году является одной из главных целей, причем эта цель учитывается с самого начала создания новых языковых пар.

В статью включен отдельный исследовательский сюжет — изучение плюсквамперфекта по многоязычному корпусу. Анализ многоязычного текста по материалам расширенной коллекции позволяет построить сеть расстояний между данными для граммемы плюсквамперфекта в 24 идиомах Европы.