КОРПУСНЫЙ АНАЛИЗ АДЪЕКТИВНЫХ ЛЕКСИКО-ФУНКЦИОНАЛЬНЫХ СОЧЕТАНИЙ ИЗ КОМБИНАТОРНОГО СЛОВАРЯ СИСТЕМЫ ЭТАП


2022. № 2 (32), 63-80

Институт проблем передачи информации им. А. А. Харкевича РАН

Аннотация:

Авторы работы ставили перед собой цель оценить репрезентативность коллекции лексико-функциональных словосочетаний (ЛФ-сочетаний), содержащихся в комбинаторном словаре системы ЭТАП. Из коллекции были отобраны сочетания, удовлетворяющие морфологическому шаблону «существительное управляет прилагательным». В терминах теории лексических функций подобные сочетания могут описываться одной из 6 функций — MAGN, BON, VER и их «антонимами» ANTIMAGN, ANTIBON и ANTIVER. Полученное подмножество мы сравнили с соответствующей частью «Словаря русской идиоматики», составленного Г. И. Ку стовой. Этот словарь целиком посвящен сочетаниям слов со значением высокой степени. Больше половины в нем также составляют сочетания существительных с прилагательными. Далее и коллекция ЛФ-сочетаний из комбинаторного словаря, и словосочетания из словаря Кустовой проверялись на предмет вхождения в синтаксически размеченный корпус СинТагРус. Для выражений, обнаруженных в корпусе, рассчитывались меры устойчивости: точечная взаимная информация (Pointwise Mutual Information), тест Стьюдента (t-test), коэффициент Дайса (Dice's coeffi cient), отношение правдоподобия (Log-likelihood ratio). Полученные данные показывают: 1) ЛФ-словосочетания комбинаторного словаря и словосочетания словаря Г. И. Кустовой имеют довольно небольшую общую часть (в последний входит лишь 27% ЛФ-сочетаний типа MAGN); 2) приблизительно одинаковые доли ЛФ-словосочетаний комбинаторного словаря и словаря Г. И. Кустовой (около 20%) засвидетельствованы в СинТагРусе; 3) засвидетельствованные в корпусе словосочетания имеют сходные показатели мер устойчивости вне зависимости от того, из какого словаря они происходят; 4) такие меры устойчивости, как точечная  взаимная информация и коэффициент Дайса, дают для рассматриваемых словосочетаний нетривиальные оценки неслучайности даже на таком небольшом корпусе, как СинТагРус; 5) синтаксически размеченный корпус хорошо подходит для поиска и оценки устойчивости ЛФ-сочетаний, поскольку они не являются линейно неразрывными.