О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

7. ЭНТРОПИЯ И КОЛИЧЕСТВО ИНФОРМАЦИИ

«Исчезни все, мне чуждое! исчезни город каменный!

Исчезни все, гнетущее! исчезни вся вселенная!

Все краткое, все хрупкое, все мелкое! все тленное!»

Игорь Северянин

 

Одной из основ современной теории информационного поиска является классическая теория информации, оформившаяся в 40-х годах ХХ века благодаря работам К. Шеннона (C.E. Shannon) [62].

Понятие энтропии первоначально возникло в физике, в таком ее разделе как термодинамика, а позже в статистической физике. В термодинамике изучают макроскопические состояния систем, которые задаются макроскопическими параметрами, такими как, например, энергия, объем, давление и т.п. В статистической физике, кроме понятия макроскопических состояний, вводят понятие микроскопического состояния, определяемого так называемыми микроскопическими параметрами, например, значениями в данный момент времени всех импульсов и координат всех частиц, из которых состоит система.

Естественно, одному макросостоянию может соответствовать множество микросостояний. В статистической физике все микросостояния считаются равновероятными, речь идет о микроканоническом ансамбле (подробности приведены в серии книг «Теоретическая физика» Л.Д. Ландау и Е.М. Лифшица). Поэтому, чем больше микросостояний соответствуют данному макросостоянию, тем большая вероятность этого макросостояния. В качестве классического примера рассматривается закрытый ящик, мысленно разделенный на две равные части. По всему объему ящика равномерно распределены частицы, каждая из которых равновероятно может находиться как в левой, так и в правой части. Выбирается количество частиц, равное 100.

Первое из рассматриваемых макросостояний следующее: все частицы расположены в левой части, этому макросостоянию соответствует только одно микросостояние (). Второе макросостояние следующее – в левой части находится только одна частица - такому макросостоянию соответствует уже сто микросостояний (). В качестве третьего макросостояния выбирается то, которое чаще всего наблюдается на практике - частицы равномерно распределены по объему – количество частиц в левой части составляет половину от всего числа частиц. Такое макросостояние должно быть наиболее вероятным, соответственно, ему должно соответствовать наибольшее число микросостояний. Действительно, как показывает простое вычисление, количество сочетаний из 100 элементов по 50  составляет . При таком гигантском отличие числа микросостояний для разных макросостояний ясно, что вероятностью встретить первое макросостояние, по сравнению с вероятностью встретить третье () можно пренебречь. В реальных системах, как правило, количество частиц значительно большее – порядка  (и больше), соответственно количество микросостояний становится очень большими.

Чтобы не работать с большими числами рассматривают логарифм от количества микросостояний, соответствующих данному макросостоянию, который и называют энтропией:

,

где  - некоторая константа, которую в физике выбирают раной постоянной Больцмана.

В случае, когда все микросостояния равновероятны  выражение для энтропии может быть записано как:

.

Вообще говоря, вероятности микросостояний могут быть разными, в этом случае выражение для энтропии надо записывать так:

.

В теории информации константу  принято выбирать равной   (информация измеряется в битах!), таким образом:

,

это и есть как раз энтропия, которая была предложена К. Шенноном.

Классическая теория информации была ориентирована прежде всего на исследование процессов передачи  данных по каналам связи. Благодаря использованию таких понятий, как информационная энтропия, количество информации, взаимная информация и т.д. теория информации приобрела универсальный характер, и ее методы стали широко использоваться во многих областях науки и технологий. Многие эффективные методы решения задач глубинного анализа текстов базируются на понятии взаимной информации (mutual information),  которая широко используется, в частности, в области статистической обработки естественных языков [111], позволяя определять близость между словами или какими-либо другими языковыми явлениями. В этой области взаимная информация описывает количество информации о принадлежности документа к определенной категории , которое, например, связано с наличием некоторого терма . В этом случае взаимная информация определяется  по формуле:

где  - эмпирически оцененная вероятность одновременной встречаемости терма  и  принадлежности документа к категории ;  - вероятность появления терма ,  -  вероятность принадлежности документа к категории .

Таким образом, взаимная информация между термом и категорией описывает степень ассоциации  терма  и категории .

На информационной теории базируются очень многие информационно-поисковые и аналитические системы. Так, в частности, компания Autonomy создала аналитический сервер IDOL (Intelligent Data Operating Layer), идеология которого базируется на использовании байесовских вероятностей и теории Шеннона, которая рассматривается как математическая основа построения коммуникационных систем, позволяющая определять и интерпретировать численные значения количества информации. По мнению создателей сервера IDOL, естественные языки обладают высокой степенью избыточности, несущественного содержания. С помощью анализа энтропии, а точнее, используя методологию взаимной информации, сервер IDOL обеспечивает извлечение  «сущности» из избыточных текстов. По мнению идеологов системы IDOL, чем реже контекст встречается в процессе коммуникации, тем он важнее, тем больше информации он передает. Благодаря такому подходу обеспечивается нахождение наиболее информативных понятий в документах.

Остановимся подробнее на основных моментах классической теории информации и ее применимости к теории и практике информационного поиска.