О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

2.6. Характеристики информационного поиска

 

Существует много характеристик поиска, из которых две признаны основными - это полнота (recall) и точность (precision). Много внимания в настоящее время отводится также такой смысловой характеристике, как  пертинентность. Эта характеристика информационно-поисковых систем означает соответствие полученных в результате поиска документов информационным потребностям пользователя, а не формальному соответствию документа запросу. Для вычисления показателей качества поиска принято рассматривать таблицу, которую заполняют по результатам поиска в учебной коллекции документов. Этот подход был предложен в рамках созданной Американским Институтом Стандартов (NIST) конференции по оценке систем текстового поиска Text REtrieval Conference (TREC, http://trec.nist.gov/) [125] и поддерживается Российским семинаром по Оценке Методов Информационного Поиска  (РОМИП, http://romip.ru/).  Таблица результатов поиска имеет следующий вид:

 

         Документы

Выданные

Не выданные

Релевантные

Не релевантные

 

         С помощью этой таблицы показатели информационного поиска рассчитываются следующим образом:

         Коэффициент полноты (recall):

        

         Коэффициент точности (precision):

        

         Коэффициент аккуратности (accuracy):

        

         Ошибка (error):

        

          F-мера (F-measure):

        

         Средняя точность (average precision):

        

где  - количество документов, релевантных некоторому запросу,  - номер релевантного  запросу документа,  -  точность го релевантного документа (документы ранжируются по релевантности). Если й релевантный документ не найден, то  =0.

         Как одна из признанных метрических характеристик информационного поиска рассматривается 11-точечный график полноты/точности TREC (РОМИП), который отражает изменения точности в зависимости от полноты и дает более полную информацию, чем  метрическая характеристика в виде одной цифры [142]. По оси абсцисс на графике откладываются значения полноты, по оси ординат - значения точности.  Если для запроса известно  релевантных документов, то полнота может принимать дискретные значения 0, 1/n, 2/n, ... , 1. Для того чтобы получить общий график полноты/точности для множества запросов:

         1. Рассматриваются фиксированные значения полноты 0.0, 0.1, 0.2, ... , 1.0 (всего 11 значений).

         2. Используется специальная процедура интерполяции точности для данных фиксированных значений полноты.

         3. Для множества запросов производится усреднение точности для заданных уровней полноты.

         Рассмотрим пример, приведенный в документе «Официальные метрики РОМИП» [54] (рис. 9). Пусть коллекция документов содержит 20 документов, 4 из которых релевантны запросу. Пусть система выдает в качестве результатов запроса все эти документы, ранжированные так, что релевантными являются первый, второй, четвертый и пятнадцатый. Для различных значений точности в этом случае полнота принимает значения 0.25, 0.5, 0.75 и 1.0. В соответствии с правилом интерполяции, для значений полноты от 0 до 0.5 точность равна 1.0 (так как первые два документа задают уровень точности 1.0), для значений полноты 0.6 и 0.7 точность равна 0.75, для значений полноты 0.8, 0.9 и 1.0 точность равна 0.27 (4/15).

Рис. 9. Зависимость точности от полноты для рассмотренного примера.  Пунктирной линией обозначены интерполированные значения

 

При оценке различных информационно-поисковых систем с помощью 11-точечного графика лучшей считается та система, в которой высокая точность достигается при малой полноте, что свидетельствует о хорошем ранжировании результатов поиска. Кроме того, лучшей признается та система, для которой площадь под соответствующей интерполяционной кривой является наибольшей.

 Полнота поиска (recall) тесно связана с оперативностью охвата информации системой. Например, созданная единожды база данных Интернет-ресурсов является "слепком" состояния Интернет в конкретный момент. Если эта база не будет обновляться, имеющиеся в ней ссылки на документы станут «мертвыми». Дополнительно к  рассмотренным поисковым характеристикам поисковых систем большое значение имеют такие технологические характеристики,  как:

-         скорость обработки запросов;

-         полнота охвата ресурсов;

-         доступность, т.е. вероятность получения ответа от системы*;

-         нахождение документов, подобных найденным;

-         возможность уточнения запросов;

-         возможность подключения переводчиков и т.п.

Безусловно, полнота охвата ресурсов Интернет - это один из двух главных аспектов характеристики полноты сетевой информационно-поисковой системы. Второй аспект связан с полнотой информации, которая выдается пользователю по его запросу.

Если под релевантностью понимается формальное соответствие запроса информации, выдаваемой системой, то на практике используется другое, неформальное понятие - пертинентность.  Для пользователя пертинентность, соотношение объема полезной для него информации к общему объему полученной информации, имеет решающее значение. При этом следует учитывать, что формальный запрос к системе является предметом творческого осмысления информационной потребности и не всегда точно отражает последнюю. Неумение большинством пользователей правильно формулировать запросы и получать приемлемые объемы откликов породило в конце ХХ столетия мысль относительно веб, как об огромной информационной свалке. Достижение высокой пертинентности - основное поле конкурентной борьбы современных поисковых систем. Именно для максимального удовлетворения информационных потребностей пользователей сетевые информационно-поисковые системы сегодня максимально интеллектуализируются - получили широкое применение технологии и методы семантических и нейронных сетей, Text Mining.

 



* В настоящее время реально существующие в веб информационно-поисковые системы  гарантируют доступность уровня «четыре девятки», т.е. 0.9999. Лучшие по этому параметру системы (RBC, Google) обеспечивают «пять девяток».