КОРПУС РЕГИОНАЛЬНЫХ ГАЗЕТ РОССИИ И ЗАРУБЕЖЬЯ
Аннотация:
В статье описывается опыт создания нового модуля в составе НКРЯ — корпуса региональной и зарубежной прессы. Главную задачу этого корпуса мы видим в том, чтобы предоставить исследователям инструмент для изучения региональной вариативности русского языка. В состав корпуса в настоящий момент входят: 1) корпус газет гродненского региона (7 изданий, 1,9 млн словоупотреблений), подготовленный совместно со специалистами Гродненского университета; 2) подкорпус российских региональных газет (13 изданий, около 2 млн словоупотреблений); 3) корпус региональных российских газет 1990–2000-х гг. (40 газет, 2,6 млн словоупотреблений); 4) региональные выпуски газеты «Комсомольская правда» (6,5 млн словоупотреблений). Тексты корпуса снабжены морфологической, семантической аннотацией и подробной метаразметкой. В статье описываются принципы отбора текстов, стандарт и программные средства обработки текстов, организация поиска по корпусу, перспективы развития состава и корпусного инструментария.