О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)



2.3. Вероятностная модель поиска

 

В 1977 году С. Э. Робертсон (S.E. Robertson) и К. Спарк-Джонс (K. Sparck Jones) обосновали и реализовали вероятностную модель, предложенную еще в 1960 году. В данной модели поиска вероятность того, что  документ релевантен запросу основывается на предположении, что термы запроса по-разному распределены среди релевантных и нерелевантных документов. При этом используются формулы расчета вероятности, базирующиеся на теореме Байеса.

 

С. Робертсон ( Microsoft Research Laboratory)

 

Основной вопрос, который решается с помощью модели: как велика вероятность того, что документ  релевантен запросу  Релевантность при этом рассматривается как вероятность того, что данный документ может оказаться интересным пользователю. Функционирование модели базируется как на экспертных оценках, получаемых в результате обучения модели, которые признают документы из учебной коллекции релевантными/нерелевантными, так и на последующих оценках вероятности того, что документ является релевантным запросу исходя из состава его термов.

Если для  запроса известны эти оценки вероятностей для всех документов, то документы можно сортировать по ним и выводить пользователям в нисходящем порядке. То есть вероятностная модель поиска предусматривает определение вероятностей соответствия запросу для документов, сортировку и предоставление документов с ненулевой вероятностью пользователю.

С самого начала в вероятностной модели использовалось упрощение, которое допускает независимость вхождения в документ любой пары термов (поэтому такой подход называется «наивным» байесовским).

         При этом в вероятностной модели поиска предполагается наличие  учебных наборов релевантных и нерелевантных документов, выбранных пользователем или полученных автоматически при каком-то начальном предположении. Вероятность того, что поступивший документ является релевантным, рассчитывается на основании соотношения появления термов в релевантном и нерелевантном массиве документов.

         В случае применения экспертных оценок процесс поиска является итерационным (в реальных системах, использующих элементы вероятностой модели, как экспертные оценки могут рассматриваться, например,  предпочтения пользователейпри выборе интересующих их документов). На каждом шаге итерации, благодаря режиму обратной связи, определяется множество документов, отмеченных пользователем как удовлетворяющих его информационным потребностям.

Рассмотрим основу модели,  а именно байесовский подход, более детально. Пусть – два независимых события, базовое вероятностное пространство.

Вероятность  при условии  определяется таким образом:

Известно, что из этого соотношения следует формула Байеса:

Рассмотрим условные вероятности двух событий, а именно того, что документ релевантен () запросу - где  запрос, документ, а также того, что документ нерелевантен () запросу -

В рамках вероятностной модели вводится понятие квоты релевантности как меры близости документа запросу - :

Очевидно, что квота меньше, чем 1 для вероятности  и больше 1 для вероятности

Определим квоту того события, что документ релевантен запросу:

.

Для числителя этой формулы справедливо:

Величина  в приведенном выражении интерпретируется как вероятность события, заключающегося в том, что документ  релевантен запросу , а величина  - вероятность того, что по запросу  будет выдан документ  .  аюИспользуя формулу Байеса для числителя и знаменателя получаем:

Подставляя  выражения  и   в  числитель и знаменатель формулы для квоты релевантности, получаем:

 

Перейдем к рассмотрению документа как вектора термов. Пусть множество термов, которые содержатся в корпусе документов   Документ рассматривается как вектор из бинарных значений весов входящих в него термов где:

Тогда, предполагая независимость термов в рамках рассматриваемой «наивной» байесовской модели, получаем:

В результате квота релевантности принимает вид:

        

Здесь  - квота релевантности для запроса без учета документов. Модель предусматривает еще одно упрощение, а именно то, что для термов, не входящих в запросы (для ), предполагается одинаковая вероятность их появления в релевантных и нерелевантных документах, т.е.:

 

Разложим произведение в формуле квоты релевантности следующим образом:

        

В приведенных обозначениях под знаком произведения  означает  множество общих термов в запросе  и документе, - множество слов, входящих в запрос, но отсутствующих в документе,  - множество слов, входящих в запрос.

Последний сомножитель равен единице ввиду вышеприведенного предположения. Введем обозначения для вероятностей того, что слово присутствует в документе, при условии того, что документ релевантен или нерелевантен запросу:

        

В этих обозначениях выполняется:

Учитывая то, что:

получаем:

Для исследования релевантной последовательности элементов достаточно учитывать только второй сомножитель, так как только в нем присутствуют признаки, связанные с документом. При значение этого сомножителя можно прологарифмировать (логарифм - монотонная функция, которая не меняет рангов документов). То есть можно анализировать сумму:

Рассмотрим приближенные значения, полученные на основе анализа некоторой предварительно полученной учебной выборки:

        

где количество релевантных документов, которое содержит терм с индексом i; соответственно, количество нерелевантных документов.

То есть можно анализировать сумму, называемую поисковым статусом:

Проведя элементарные преобразования, получаем:

В качестве примера рассмотрим массив документов, состоящий из двух частей: учебной выборки - документов  (Табл. 1)  и новых документов -  (Табл. 2), для которых необходимо оценить уровень релевантности. Предположим, что запрос состоит из четырех термов -  (соответственно, это та часть словаря, которая существенна для анализа). В таблице отдельным столбцом приведена некоторая экспертная оценка  релевантности для документов из учебной выборки.

Табл. 1

 

R

1

0

0

1

1

1

1

0

1

1

0

1

1

0

1

0

0

1

1

0

0

0

1

1

0

1

1

0

0

0

2

2

1

2

1

1

2

2

4

4

1/4

1

 

  

По этим данным рассчитываются значения  и ,  а также экспоненты от соответствующей составляющей статуса релевантности , которые приведены в последних трех строках Табл. 1.

Предположим, что необходимо проанализировать новые документы , встречаемость терминов  для которых приведена в соответствующих ячейках Табл. 2. Для новых документов статус релевантности  рассчитывается в соответствии с вышеприведенной формулой. Результаты, также приведенные в Табл. 2, свидетельствуют, в частности, о значимом уровне релевантности документа , рассчитанного в соответствии с вероятностной моделью.

Табл. 2

 

t1

t2

t3

t4

Статус (SV)

0

1

0

1

1

1

0

0

1

0

1

1