О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

5.6. Ранжирование результатов поиска

 

Ранжирование - процесс, при котором поисковая система выстраивает результаты поиска  в определенном порядке по принципу наибольшего соответствия конкретному запросу. Представление результатов поиска конечно зависит от алгоритма ранжирования. Ранжирование результатов поиска по уровню релевантности возможно не для всех моделей поиска (например, невозможно для булевой модели).

Перспективный подход к ранжированию - использование многопрофильных шкал, сформированных на основе метаданных, сетевых свойств, данных о пользователях.

Например, реализация сюжетных цепочек в тематических информационных массивах  и их взвешивание рассматриваются как один из алгоритмов ранжирования.          Ранжирование текстовых и гипертекстовых документов существенно различается. Текстовые документы могут ранжироваться по уровням релевантности и другим параметрам, экстрагируемым из текстов. Ранжирование гипертекстовых документов возможно также по свойствам, обуславливаемым сетевой структурой, гиперссылками. Например, для определения авторитетности веб-страницы как источника информации или посредника используется анализ графа, образованнго веб-документами и соответствующими гиперссылками. Два самых известных алгоритма ранжирования веб-страниц, основанных на связях, HITS (hyperlink induced topic search) и PageRank,  были разработаны в 1996 году в  IBM Дж. Клейнбергом  (J. M. Kleinberg) [105] и в Стенфордском Университете  С. Брином (S. Brin) и Л. Пейджем (L. Page) [80].

Оба алгоритма предназначены для решения "проблемы избыточности", свойственной широким запросам, увеличения точности результатов поиска на основе методов анализа сложных сетей.  

 

5.6.1. Алгоритм HITS

 

Алгоритм HITS (Hyperlink Induced Topic Search), предложенный Дж. Клейнбергом, является реализацией латентно-семантического индексирования (см. п. 5.1) к ранжированию выдачи информационно-поисковых систем.

Алгоритм HITS обеспечивает выбор из информационного массива лучших «авторов» (первоисточников, на которые введут ссылки) и «посредников» (документов, от которых идут ссылки цитирования). Понятно, что страница является хорошим посредником, если она содержит ссылки на ценные первоисточники, и наоборот, страница является хорошим автором, если она упоминается хорошими посредниками.

 

Дж. Клейнберг

Для каждого документа  рекурсивно вычисляется его значимость как автора  и посредника  по формулам:

 

Покажем, что алгоритм HITS подобен LSA. Введем понятие матрицы инциденций , элемент которой  равен единице, когда документ  содержит ссылку на документ , и нулю в противном случае. Воспользуемся сингулярным разложением:   где  - квадратная диагональная матрица с неотрицательными диагональными элементами . Рассмотрим матрицу  для которой справедливо:  где  диагональная матрица с элементами . Соответственно, для матрицы  будет справедливо  Очевидно, что как и при LSA, собственные векторы, которые соответствуют наибольшим сингулярным значениям  (или ), будут соответствовать  статистически наиболее важным авторам (или посредникам).

Алгоритм вычисления рангов HITS приводит к росту рангов документов при увеличении количества и степени связанности документов соответствующего сообщества. В этом случае в результаты поиска системы, использующей алгоритм  HITS, могут попасть в большом количестве документы по темам, отличным от информационной потребности пользователя, но тесно связанных между собой, т.е. часть выдаваемых результатов может отклониться от доминирующей тематики. В этом случае происходит, так называемый, сдвиг тематики (topic drift) за счет наличия «тесно связанных сообществ» документов (Tightly-Knit Community,  TKC).

Для решения этой проблемы как некоторое расширение стандартного алгоритма HITS был предложен алгоритм PHITS. В рамках этого алгоритма предполагается: множество цитирующих документов, множество ссылок, множество классов (факторов). Предполагается также, что событие  происходит с вероятностью

Условные вероятности  и  используются для описания зависимостей между наличием  ссылки , латентным фактором  и документом - .

Оценивается функция правдоподобия:

где

Цель алгоритма PHITS состоит в том, чтобы подобрать  , , , чтобы максимизировать .

После этого:

 – ранги авторов;

 – ранги посредников.

Для вычисления рангов необходимо задать количество факторов в множестве  , и тогда  будет характеризовать качество страницы как автора в контексте тематики . К недостаткам метода надо отнести то, что итеративный процесс чаще всего останавливается не на абсолютном, а на локальном максимуме функции правдоподобия . Вместе с там в ситуациях, когда в множестве найденных веб-страниц нет явного доминирования тематики запроса, PHITS превосходит алгоритм HITS.