ИЗ ОПЫТА РАБОТЫ НАД СОЗДАНИЕМ АВТОРСКИХ КОРПУСОВ ТЕКСТОВ


2024. № 1 (39), 58-67

Московский государственный университет имени М. В. Ломоносова

Аннотация:

В статье описывается опыт работы Лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета Московского государственного университета им. М. В. Ломоносова по созданию авторских корпусов текстов. Обсуждаются оптимальные способы организации таких корпусов и обосновывается целесообразность соблюдения принципов полнотекстовости и лексикографированности. Под лексикографированностью понимается такая организация корпуса, при которой поиск и навигация осуществляются посредством выбора пользователем словника с нужным ему типом информации. Через словники разных типов и ихпересечение осуществляется поиск нужных единиц, контекстов их употребления и выход в нужное место текста. В статье также описываются некоторые аспекты работы над словарем и корпусом художественных текстов Чехова, в частности, возможность тематической разметки произведений. Основное внимание уделено ведущейся в настоящее время работе над корпусом текстов А. С. Пушкина. Рассматриваются некоторые проблемы, связанные с семантизацией и семантической классификацией лексических единиц, а также с дополнительной сегментацией текстов, увеличивающей информативную ценность корпуса. Описываются основные режимы работы с корпусом, доступные в разрабатываемой в лаборатории системе «ИСТОК», в том числе режим справки. Он позволяет пользователю в процессе чтения и работы с единицами словников получать разного рода дополнительную информацию. В качестве источников такой информации используются «Словарь языка Пушкина», «Путеводитель по Пушкину» и др. Описание иллюстрируется получаемыми с помощью системы «ИСТОК» результатами.