ПАРАЛЛЕЛЬНЫЕ ТЕКСТЫ В СОСТАВЕ НАЦИОНАЛЬНОГО КОРПУСА РУССКОГО ЯЗЫКА: НОВЫЕ НАПРАВЛЕНИЯ РАЗВИТИЯ И РЕЗУЛЬТАТЫ


2015. № 3 (6), 194-234

Институт русского языка им. В.В. Виноградова РАН

Аннотация:

В статье представлено текущее состояние параллельных корпусов в составе НКРЯ и работа, проведенная над этими корпусами в период 2009–2015 гг. Параллельные корпуса НКРЯ включают следующие параллельные двуязычные (с русским) корпуса: английский, армянский, белорусский, болгарский, испанский, итальянский, латышский, немецкий, польский, украинский, французский, эстонский. Практически для всех из этих языков представлены обе симметричные языковые пары. В соответствии с мировым опытом построения параллельных корпусов, теперь входит многоязычный корпус, состоящий из 9 текстов и задействующий более 20 языков (в основном славянских). Как поливариантный с 2012 г. разрабатывается русско-французский корпус, включающий до 4 вариантов перевода для некоторых текстов. Поливариантные тексты включены и в многоязычный корпус. В параллельные корпуса теперь включаются как художественные, так и нехудожественные тексты с той же классификацией, что и в основном русском корпусе (публицистика, производственно-технические, учебно-научные, церковные, юридические тексты). Разработан инструментарий разметки несоответствий и вольностей при переводе (пропуск части предложения, вставка, значимая неадекватная замена, выполненная переводчиком), значительная часть текстов размечена с учетом этого инструментария. Тексты на большинстве языков получают морфологическую разметку. Рассмотрены конкретные примеры использования корпусов для исследования лексики и грамматики.