О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

4.6. Байесовский классификатор

 

4.6.1. Байесовская логистическая регрессия

 

 В модели байесовской логистической регрессии рассматривается условная вероятность принадлежности документа  классу :

В рамках данной модели документ – это вектор: , где  - вес терма , а  - размер словаря.

Модель байесовской логистической регрессии задается формулой:

 ,

где вектор параметров модели, а  - логистическая функция, в качестве которой рекомендуется использовать:

.

Основная идея подхода состоит в том, чтобы использовать предшествующее распределение вектора параметров , в котором каждое конкретное значение   с большой вероятностью может принимать значение, близкое к 0. При реальных  расчетах принимаются  гипотезы о Гауссовском или Лапласовом распределении значений  , а также то, что все величины   взаимно независимы.

 

4.6.2. Наивная байесовская модель

 

 Рассматривается условная вероятность принадлежности объекта классу  при том, что он обладает признаками

.

В соответствии с теоремой Байеса:

 

По определению условной вероятности:

В соответствии с «наивным» байесовским подходом предполагается, что события  независимы для любых :

Соответственно:

Перейдем к классификации документов. В случае бинарной классификации «наивная» байесовкая вероятность принадлежности документа классу определяется по формуле:

В соответствии с теоремой Байеса:

Допустим, классификация происходит только по двум классам -  и . Тогда в соответствии с формулой Байеса имеем:

В качестве критерия принадлежности документа к категории рассматривается следующее отношение вероятностей принадлежности и не принадлежности классу   (аналогично статусу релевантности в вероятностной модели поиска):

На практике используется логарифм отношения вероятностей:

Если выполняется неравенство  (т.е., попросту, ), то считается, что документ  относится к категории .

 

4.6.3. Байесовский подход к решению проблемы спама

 

Метод Байеса широко используется для определения несанкционированных рекламных рассылок по электронной почте (спама). При этом  рассматривается учебная база - два массива электронных писем, один из которых составлен из спама, а другой - из обычных писем.  Для каждого из корпусов подсчитывается частота использования каждого слова, после чего вычисляется весовая оценка (от 0 до 1), которая характеризует условную вероятность того, что сообщение с этим словом является спамом. Значение веса, близкое к 0.5,  не учитываются при интегрированном подсчете, поэтому слова с такими весами игнорируются и изымаются из словарей.

В соответствии с методом, предложенным П. Грэмом (P. Graham) [95], если сообщение содержит  n слов с весовыми оценками  то оценка условной вероятности того, что письмо является спамом, вычисляется по формуле:

 

Предполагается, что S – событие, заключающееся в том, что письмо – спам,  А – событие, заключающееся в том, что письмо содержит слово t. Тогда, в соответствии с формулой Байеса, справедливо:

        

Если сначала не известно, является ли письмо спамом или нет, исходя из опыта, знания соотношения спама и не-спама в учебной коллекции сообщений, предполагается, что откуда следует:

Далее предполагается, что  и  – это события, состоящие в том, что письмо содержит слова  и . При этом вводится допущение, что эти события независимы («наивный» байесовский подход). Условная вероятность того, что письмо, содержащее оба слова ( и ), является спамом, равна:

Частным случаем  этой формулы на случай произвольного количества слов и  и есть формула  Грэма.

Следует отметить, что широкое применение находит именно значение . Хотя это  немного упрощает вычисление, но серьезно искажает действительность и снижает качество.

На практике на основе словарей, которые постоянно модифицируются, значение Spm рассчитывается для каждого сообщения. Если оно больше некоторого предельного, то сообщение считается спамом.

 

4.6.4. Определение тональности сообщений

 

 

Традиционная экспертная оценка  текстовых сообщений оказывается  не эффективной для  больших  и динамичных текстовых массивов. Один из аспектов анализа текстов сообщений из современных информационных потоков - это оценка так называемой тональности или эмоциональной окраски. Под тональностью текста в данном случае понимается позитивная, негативная или нейтральная эмоциональная окраска как всего текстового документа, так и отдельных его частей, имеющих отношения к определенным понятиям, таким как персоны, организации, бренды и т.п.

Описываемый ниже метод основывается на статистических закономерностях, связанных с присутствием определенных термов в текстах, наивном байесовском подходе и методе нейронных сетей (реализации двухслойного перцептрона).

Необходимо отметить, что задача определения тональности сообщений более сложна, чем выявление спама на основе анализа текстов. В то время как выявление спама подразумевает лишь две гипотезы (спам, не спам), то в задаче определения тональности проверяется как минимум три: эмоциональная окраска позитивная, негативная, нейтральная и, зачастую, существует потребность также в проверке комбинации этих гипотез (например, для выявления уровня «экспрессивности» текста).

С другой стороны, в отличие от проблемы выявления спама, где оценка отдельных документов может быть близка к однозначной, в случае определения тональности сообщений  разные эксперты порой не приходят к единому мнению.

В случае оценки тональности сообщений  пространство гипотез будет содержит:  – тональность отрицательная,   - тональность нейтральная и    - тональность положительная. Для упрощения рассмотрим  события такого типа:  – тональность положительная,  – тональность не положительная. Из корпуса документов с положительной тональностью выбираются термы , характерные для этих документов, со значениями , превышающими 1/2.  Таким же образом  выбираются термы и для документов с отрицательной тональностью. Выбранные термы принято называть тонально-окрашенными или просто тональными, несущими в себе оценочную семантику.

Для упрощения модели предположим, что для всех выбранных термов вес будет одинаковым,  равным α  (может изменяться при обучении модели). Тогда формула для вычисления  функции  примет вид:

        

где х – количество весомых с точки зрения тональности (положительной или отрицательной) термов в информационном сообщении.

Соответственно, для оценки гипотезы об отрицательной тональности сообщения () может использоваться словарь слов «отрицательной тональности»  и та же формула. Вместе с тем, поскольку положительная и отрицательная тональности являются своего рода антагонизмами,  окончательное решение о тональности сообщения принимается с учетом разности значений весовых оценок гипотез  и . Пороговое значение этой величины  -   определяется в процессе настройки (обучения) системы.

Необходимо сделать еще одно, диктуемое практикой, замечание.  Следует учитывать, что отрицательная тональность сообщений почти всегда выражена более явно, чем положительная. Поэтому при расчете веса отрицательной тональности значение  в приведенной выше формуле несколько уменьшается путем умножения его на эмпирически определяемую константу .

В некоторых случаях определенный интерес для аналитиков представляют документы, у которых достаточно высоки значения весов как положительной, так и отрицательной тональности. Заметим, что разница этих весов может быть минимальной, т.е. документ может характеризоваться как нейтрально окрашенный. Вместе с тем он может получить дополнительную характеристику «экспрессивной» тональности.

Алгоритм определения тональности можно представить в виде нейронной сети. Первый слой этой сети составляют два нейрона - определители весовых значений положительной и отрицательной тональности (положительный и отрицательный нейроны). Можно предположить, что количество синапсов каждого нейрона соответствует количеству значимых для определения тональности сообщений слов из словаря естественного языка.

         На вход нейронов поступают слова (рис. 15). При этом  если на вход поступило слово из словаря с номером i, в противном случае  Весовые значения (вес синапсов), которые соответствуют этим словам, равны  для положительного нейрона и  - для отрицательного. Именно эти весовые значения могут изменяться в процессе обучения первого слоя нейрона. Сумматоры подсчитывают значения  и   соответственно.

        

Рис. 15. Двухслойная нейронная сеть для определения тональности текста

           

Проводимость нейронов рассчитывается по приведенной выше формуле, аргументом в которой выступает значение    для положительного нейрона и γ  – для отрицательного. Оба нейрона выдают через аксоны значения,  и , которые являются входными сигналами для нейрона второго уровня, сумматор которого вычисляет разность   и , а функция проводимости выдает градиентный результат по условию, приведенному на рис. 15.