О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

7.1. Энтропия Шеннона

 

Клодом Шенноном была предложена энтропия как мера неопределенности ансамбля   определяемая следующим функционалом:

,

где  - вероятность состояния ,  - неотрицательная константа.

 

Клод Шеннон (1916 -2001)

 

В случае, если все состояния источника информации равновероятны,  формула для энтропии  принимает вид:

который совпадает с мерой  Хартли, таким образом подтверждая тот факт, что  она является частным случаем энтропии  Шеннона.

Для пояснения понятия информационной энтропии можно рассмотреть процесс получения сообщения длиной  символов (букв или пробела).

Итак, пусть передается сообщение, состоящее из   различных символов - . Данное сообщение можно представить в виде таблицы:

1

2

3

 

где первая строка - это символы сообщения, а вторая – соответствующие этим символам номера мест в сообщении.

Пусть для любого  символ  () генерируется с вероятностью , причем  это значение  не зависит от предыдущих символов. Тогда при достаточно большом  количество символов  будет с высокой точностью соответствовать значению .  Таким образом, вероятность  получить сообщение, в котором содержится   символов ,   символов  и т.д. (без учета их местоположения в сообщении), равна:

.

Двоичный логарифм от этой вероятности можно записать следующим образом:

.

Сомножитель у , взятый с обратным знаком, и есть энтропия Шеннона:

,

Таким образом вероятность появления сообщения длиной  символов с указанными выше свойствами, равна:

.

Так как все подобные сообщения равновероятны (с вероятностью ), то их число  равно:

.

Таким образом, информационная энтропия (или энтропия Шеннона) определяет количество сообщений, в которых символы встречаются с «правильной» по статистическим соображениям частотой  ( с ,   с , и т.д.).

Следует заметить, что введенная Шенноном энтропия - это та же энтропия из физики, хотя и используется она для других целей, о которых речь пойдет позже. По физической терминологии, макросостояние задается набором . Каждому макросостоянию соответствует  микросостояний.

Для пояснения, приведем два примера.

Макросостоянию   (с вероятность 1 встречается символ ) соответствует только одно сообщение, т.е. только одно микросостояние - . Энтропия такого макросостояния (с учетом известного предела ) равна:

.

Такой результат вполне соответствует интуиции, неопределенности нет, сообщение, которое мы можем получить, полностью определено (предсказуемо) – энтропия минимальна.

А вот для, например, макросостоянию, в котором каждый символ встречается с одной и той же вероятностью  -  соответствует намного большая энтропия:

.

Количество разных сообщений длиной , в которых каждый символ встречается  раз естественно намного больше единицы, оно равно

.