Гиндин С. И.: Опыт статистической реконструкции семантики поэтического идиолекта по корпусу связных текстов

Опыт статистической реконструкции семантики
поэтического идиолекта по корпусу связных текстов
(Тезисы. В сокращении)

Гиндин С. И. Опыт статистической реконструкции семантики поэтического идиолекта по корпусу связных текстов // Автоматическая обработка текста методами прикладной лингвистики. Материалы Всесоюзной конференции 6–8 декабря 1971 г. – Кишинев, 1971. – С. 77 – 79.

I. Гипотеза А. Я. Шайкевича о том, что слова, связанные друг с другом по смыслу, должны часто встречаться в текстах в непосредственной близости друг от друга [1], и родственная ей гипотеза Ю. А. Шрейдера о согласованности расстояний между словами в тексте и в тезаурусе [2] сделали возможными попытки дескриптивно-дешифровочной реконструкции семантической системы языка. В отличие от лексикографического толкования и от психолингвистических экспериментов, такой подход не дает возможности установить непосредственной соотнесенности между словами и их внеязыковыми денотатами, но зато он достаточно объективен и может быть применен к текстам, написанным на неизвестном нам языке или отражающем неизвестный нам фрагмент действительности. (...)

... применение подобной методики к полной совокупности текстов одного автора в целях реконструкции того, что можно было бы назвать авторской семантикой, семантикой индивидуального языка (идиолекта). Ведь хотя семантика по самим условиям и задачам общения не может не быть узуальной, но по условиям формирования и обучения она индивидуальна (ср. различение «ближайшего» и «дальнейшего» значений у А. А. Потебни). (...)

3. Нами была предпринята попытка подобной статистической реконструкции авторской семантики на материале всего стихотворного творчества Ф. И. Тютчева (около 28000 словоупотреблений). В качестве исходной посылки была взята гипотеза А. Я. Шайкевича, но методика исследования претерпела некоторые изменения. Поскольку в основе его гипотезы лежит явление семантической связности текста, представляется целесообразным не ограничиваться, как это было в статье А. Я. Шайкевича, изучением совместной встречаемости в пределах одной строки. Семантическая связность есть одно из средств сцепления соседних отрезков текста [3 естественно взять не одну строку, а несколько последовательных строк. В нашей работе если слово x встречалось в строке с номером n, то входящими с ним в один интервал считались все слова строк n-2, n-1, n, n+1, n+2. такое построение интервала выбрано с учетом трехстишия как минимального отрезка для установления ритмической инерции. Наше пятистишие есть объединение трехстишия, заканчиваемого n, с трехстишием, начинаемым ею.

Коль скоро эмпирическая встречаемость изучалась в пределах так построенного интервала, то и теоретическая вероятность должна была рассчитываться для такого же интервала. В предположении, что употребления слов x и y есть независимые события, рассчитывалось математическое ожидание числа пятистиший, в средней строке которых встретилось слово x и хотя бы в одной из строк встретилось слово y. (...)

4. В докладе приводятся результаты реконструкции тютчевской семантики – как в виде попарных коэффициентов семантической связи между словами, так и в виде классов слов, построенных по этим коэффициентам с помощью специальных алгоритмов. Излагаются некоторые соображения о применении полученного семантического разбиения для анализа структуры тютчевских текстов, а также гипотеза о различной степени статистико-дистрибутивной реконструируемости семантики различных классов.

Примечания

[1] Шайкевич А. Я. Распределение слов в тексте и выделение семантических полей // Иностранные языки в высшей школе. – Вып. II. – М., 1963.

[2– 1963. – №1.

[3] Гиндин С. И. Онтологическое единство текста и его строевые корреляты // Машинный перевод и прикладная лингвистика. – Вып. 14. – М., 1971.

Раздел сайта:

Главная страница → Критические материалы о Тютчеве