О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

3.2.2. Определение взаимосвязей понятий

 

Таблицы взаимосвязей понятий строятся как статистические отчеты, отражающие близость (совместную встречаемость в документах  или близость по сопутствующему контексту) отдельных понятий. Это симметричные матрицы, элементы которых – коэффициенты взаимосвязей понятий, соответствующих ее строкам и столбцам. Эти коэффициенты пропорциональны количеству документов входного информационного потока, которые соответствуют одновременно обоим понятиям, или количеству значимых лексических единиц, употребляемых совместно с данными понятиями. Таким образом, взаимосвязь понятий может быть оценена с помощью двух алгоритмов:

-         совместного вхождения – путем расчета совместного вхождения понятий в одни и те же документы;

-         контекстной близости - путем расчета корреляций наборов ключевых слов, которые входят в документы, в которых упоминались  данные понятия.

Рассмотрим формальное определение таблицы взаимосвязей понятий , построенной с помощью первого алгоритма. Обозначим - понятие,  - массив документов,  – документ,  - подмножество , соответствующее понятию ,  – признак соответствия понятия документу:

.

Можно определить уровень связи понятий  и :

 

 Значения  в совокупности образуют матрицу таблицы взаимосвязей понятий .

 Для случая второго алгоритма, учитывающего контекстную близость, таблицу взаимосвязей понятий  формально определим следующим образом. Обозначим   - множество ключевых слов, входящих в документ

Введем понятие профайла понятия  как множества ключевых слов из документов, соответствующих этому понятию:

 

Введем также понятия словаря системы   как множества ключевых слов, входящих в , и вектора   с элементами , соответствующими профайлу темы:

        

В этом случае уровень связи понятий  и   можно определить следующим образом:

Таким образом, таблица взаимосвязей понятий второго типа  будет состоять из значений .     

Следует отметить, что таблица взаимосвязей первого типа всегда отражает взаимосвязи понятий точнее, чем таблица взаимосвязей второго типа, однако таблица второго типа учитывает взаимосвязи более полно (рис. 11).

Действительно, из того факта, что  следует, что , так как из первое условие определяет то,  что существует хотя бы один такой документ (с индексом ), что  Отсюда следует, что пересечения профайлов соответствующих понятий не пусто: , а соответственно, 

Обратное утверждение в общем случае неверно. Проведем мысленный эксперимент, подтверждающий это замечание. Рассмотрим два понятия «пингвин» и «белый медведь». Эти понятия могут иметь ненулевое контекстное пересечение за счет таких ключевых слов, как «лед», «мороз», «рыба», однако понятие «пингвин» входит в документы, описывающие фауну Антарктики, а «белый медведь» - Арктики.

 

ris11-1

а)                                      б)

Рис. 11.  Два варианта таблицы взаимосвязей понятий: а) - , б)   - (нулевые элементы соответствуют белым областям, совпадающие – черным)

 

  Для переупорядочения понятий из таблицы взаимосвязей с целью выявления множеств наиболее взаимозависимых  из них (путем выявления  диагональных блоков, см. рис. 11) применяются методы кластерного анализа, в частности алгоритм k-means (см. п. 5.2), который является одним из самых эффективных для группировки данных из динамически изменяемых массивов.