РАЗМЕТКА СЛОВ-ЦВЕТООБОЗНАЧЕНИЙ В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЯЗЫКА
Аннотация:
Описываются ошибки разметки слов-цветообозначений в основном и поэтическом корпусах НКРЯ. Основное внимание уделено семантической разметке.Ошибки можно разделить на две группы — отсутствие тега ‘цвет’ в описании лексических единиц, имеющих признак ‘цвет’ и нерелевантное приписывание этого тега. Помимо этого выявлена ошибка в грамматической разметке слов (наречий и кратких прилагательных), имеющих тег. Показана непоследовательность в разметке цветообозначений квазицветов и аналоговых цветообозначений. Предложены некоторые способы устранения этой непоследовательности. Выявлено несколько частотных прилагательных, которым тег приписан нерелевантно, что создает при использовании их значительный информационный шум. Произведен анализ цветообозначений глаголов и существительных. Установлено, что абсолютная частота цветообозначений, имеющих тег ‘цвет’, в НКРЯ значительно выше, чем цветообозначений, не имеющих тега. Поэтому, несмотря на выявленные ошибки, сохраняется возможность эффективного использования НКРЯ для исследований. Тем не менее, ошибки могут серьезно повлиять на результаты исследований и их интерпретацию. В этой связи устранение ошибок представляется целесообразным.