ПЕРСИДСКИЙ ПОЭТИЧЕСКИЙ КОРПУС


2022. № 1 (31), 65-71

Национальный исследовательский университет «Высшая школа экономики»,

Институт лингвистических исследований РАН

Аннотация:

В тексте речь идет о технических принципах, легших в основу нового корпуса персидского языка, размещенного в интернете по адресу linghub.ru/persian_poet_corpus. Корпус принадлежит к типу поэтических, то есть содержит в себе стихотворные произведения и имеет специальную разметку, отражающую стиховой уровень организации текста, в нашем случае — это метр и рифма. Корпуса подобного типа уже созданы для русского, башкирского и чешского языков. В случае с персидским языком создание корпуса было сопряжено с дополнительными сложностями, так как мы не располагаем инструментами автоматической разметки нескольких ключевых параметров персидского языка (например, нет возможности сделать фонетическую транскрипцию или транслитерацию текста). Корпус составляют тексты общим объемом около 4 млн токенов, представленных в 16 тыс. произведений. Корпус разнообразен с жанровой (15 наименований), авторской и временной точки зрения, так как охватывает сочинения нескольких десятков авторов, живших на протяжении IX–XVII веков. Тексты имеют морфологическую разметку. Стихотворный метр заимствован с сайта ganjoor.net, а разметка рифмы и редифа осуществлена собственными силами.