КУЛЬТУРОМИКА В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЯЗЫКА, К ПОСТАНОВКЕ ЗАДАЧИ: ТРИ ВЕКА РУССКИХ ДОРОГ


2015. № 3 (6), 605-640

Научно-исследовательский университет «Высшая школа экономики»

Аннотация:

Культуромика — новый метод исследования культурных и социальных процессов с помощью статистического анализа употребления слов и словосочетаний в огромных текстовых массивах. Исследования по культуромике выполняются на базе Google ngrams, хранилища всех сочетаний слов для каждого года длиной от 1 до 5 на 8 языках. Однако работа с большими данными обладает рядом проблем, решить которые предлагается, сузив объем данных, но существенно улучшив их по качеству. В статье вводится понятие medium data — средних данных, достаточных для того, чтобы строить с их помощью надежные статистические предсказания, но и допускающих, благодаря своему объему, качественную очистку, фильтрацию, объединение данных в семантические классы. В статье рассматриваются данные XVIII–XX веков, полученные как результат запроса «имя прилагательное + дорога». Весь массив данных был поделен на семантические классы, соответствующие одному из аспектов значений существительного дорога. В работе строятся наблюдения о том, какие из семантических классов ведут себя похожим образом, как меняется частотность вхождений семантических классов, а также их лексический состав с течением времени. Эти данные связываются с экстралингвистической реальностью. Фактически предпринимается попытка исследования того, как изменения в общественной жизни находят отражение в изменениях языковой практики. Это исследование проводится с помощью данных Национального корпуса русского языка.