О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

5.5. Гибридные методы

 

На практике достаточно часто применяются так называемые гибридные методы, которые зачастую объединяют несколько теоретических подходов. В качестве реализации гибридного метода рассмотрим алгоритм  выявления основных сюжетов из потока новостей, применяемый в системе InfoStream [31].

ris23-a

ris23-b

ris23-c

 

Рис. 23. Графы кластеров суффиксного дерева

 

В соответствии с этим алгоритмом последний документ, который поступает на вход системы (документ с номером 1 при обратной нумерации), порождает первый кластер и сравнивается со всеми предыдущими в соответствии с некоторой метрикой. Если эта мера близости для какого-нибудь документа оказывается больше заданной, то текущий документ приписывается первому кластеру. Сравнение длится до тех пор, пока не исчерпывается список актуальных документов потока. После такой обработки документа с номером 1, происходит обработка следующего документа, который не вошел в первый кластер, с которым последовательно сравниваются  все актуальные документы потока и т.д. В результате формируется некоторое неизвестное заранее количество кластеров, которые ранжируются по своим весам. Для выбранных кластеров, как и в методе k-means заново пересчитываются центроиды - документы, которые наиболее близки в смысле векторно-пространственной модели и предположительно лучше всего отражают тематику кластеров.

Укрупнение рубрик - актуальная задача кластерного анализа и она может быть решена путем их группирования по признакам подобия. Рассмотрим множество  всех термов   в некоторой системе тематических информационных портретов (профайлов)    и его проекцию на это множество  -  матрицу , строки которой соответствуют профайлам, а столбцы – термам.

Произведение матриц  будет таблицей взаимосвязей тематик,  построенной в результате анализа состава термов из соответствующих профайлов.

В некоторых случаях можно эффективно выделить некоторое число групп взаимозависимых тематических рубрик, используя, например, методы кластерного анализа k-means или LSI, заменяя их в последующем одной, укрупненной рубрикой.

При заранее определенных тематических профайлах  для любого документа может быть вычислен его вес в пространстве этих профайлов (задача линейной классификации). На практике тематические профайлы чаще всего формируются путем лингвостатистического анализа массивов документов, полученных в результате поиска по тематическим запросам. Эти запросы в большинстве промышленных информационно-поисковых систем составляются на языках, которые являются расширением булевой алгебры.

Окончательная же рубрикация документов допускает более «экономный»  весовой подход на основе массивов термов, входящих в соответствующие профайлы. Таким образом, в результате учитываются «логические» преимущества первого подхода и эксплуатационные - второго.

Определим матрицу  отображения потока документов на пространство  тематических профайлов, строки которой соответствуют документам, а столбцы - тематикам. Введем понятие ядра этой операции как произведения  матриц  Матрица  по смыслу представляет собой матрицу взаимосвязей тематических профайлов.

   Еще одна матрица, полученная в результате умножения , выражает взаимосвязь документов. Для современных информационных потоков размерность матриц   намного превышает размерность матриц .  Соответственно, обнаруживая явные группы взаимозависимых тем в матрице , можно определять группы взаимозависимых документов в матрице ,  группирование элементов которой ввиду ее размерности и динамики роста – достаточно сложная задача.