О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

4. МЕТОДЫ КЛАССИФИКАЦИИ ИНФОРМАЦИИ

«Каких зверей, каких там птиц я не видал!

Какие бабочки, букашки,

Козявки, мушки, таракашки!»

Иван Крылов

 

4.1. Задача классификации

 

Под классификацией текстов (Text Categorization, TC)  понимается распределение текстовых документов по заранее определенным категориям (в противоположность кластеризации, где множество категорий заранее неизвестно).

Методы классификации текстов лежат на стыке двух областей -  машинного обучения (machine learning, ML) и информационного поиска (information retrieval, IR) [33, 134]. Соответственно автоматическая классификация может осуществляться:

-         на основе заранее заданной схемы классификации и уже имеющегося множества классифицированных документов;

-         полностью автоматизировано.

   При применении подходов машинного обучения, классификационное правило строится  на основе тренировочной коллекции текстов.

Задача классификации текстов заключается в  определении принадлежности текста, который рассматривается, одному или нескольким классам. Классификация может определяться общей тематикой текстов, наличием определенных дескрипторов или выполнением определенных условий, иногда довольно сложных.

Для каждого класса эксперты  отбирают текстовые массивы (наборы типичных документов), которые используются  системой классификации в режиме обучения. После того как обучение закончено, система с помощью специальных алгоритмов сможет распределять входные потоки текстовой информации по классам.

Классификацию можно рассматривать как задачу распознавания образов, при таком подходе для каждого объекта выделяются наборы признаков. В случае текстов признаками являются слова и взаимозависимые наборы слов - термы, которые содержатся в текстах. Для формирования набора признаков для каждого документа используются лингвистические и статистические методы. Признаки группируются в специальную таблицу - информационную матрицу. Каждая строка матрицы соответствует одному из классов, каждый элемент строки – одному из признаков; численное значение этого элемента определяется в процессе обучения системы классификации. Когда обучение завершается, принадлежность нового текста к одному из классов устанавливается путем  анализа признаков этого текста с учетом соответствующих весовых значений. Существующие алгоритмы позволяют проводить классификацию с довольно высокой точностью, однако результаты достигаются за счет больших размеров информационной матрицы, которая определяется общим числом дескрипторов - термов.

Автоматическая классификация может применяться в таких процедурах информационного поиска :

-         фильтрация (избирательный отбор) информации;

-         формирование тематических каталогов;

-         поиск по классам;

-         реализация обратной связи по релевантности путем классификации результатов поиска и выбора  пользователем релевантных классов;

-         расширение запросов за счет термов, которые характеризуют тематику класса;

-         снятие омонимии (т.е. учет тех случаев, когда одно и то же слово может иметь разный смысл);

-         автоматическое реферирование.

 

4.1.1. Формальное описание задачи классификации

 

Пусть  - множество документов,  - множество категорий,  - целевая функция, которая по паре  определяет,  относится ли документ  к категории  (1 или True) или нет (0 или False). Задача классификации состоит в построении функции , максимально близкой  к

Коллекция заранее классифицированных экспертами документов, т.е. таких, для которых уже точно известно значение целевой функции, разбивается на две части:

1. Учебная коллекция. Классификатор  строится на основе характеристик этих документов.

2. Тестовая коллекция. На ней проверяется качество классификации. Эти документы не должны использоваться в процессе построения классификатора.

Рассматриваемая классификация называется четкой бинарной, то есть подразумевается, что существуют только две категории, которые не пересекаются. К такой классификации сводится много задач, например, классификация по множеству категорий  разбивается на  бинарных классификаций по множествам .

Часто используется ранжирование, при котором множество значений целевой функции - это отрезок [0, 1]. Документ при ранжировании может относиться не только к одной, а сразу к нескольким категориям с разной степенью принадлежности, т.е. категории могут пересекаться между собой.

 

4.1.2. Ранжирование и четкая классификация

 

Предположим, что для каждой категории  построена функция  (статус классификации), отображающая множество документов D на отрезок  [0; 1], которая задает степень принадлежности документа категории. Рассмотрим задачу, заключающуюся в том, чтобы от функции ранжирования перейти к точной классификации. Наиболее простой способ - для каждой категории  выбрать предельное значение (порог) . Если  то документ  соответствует категории . Возможен и другой подход - для каждого документа  выбирать  ближайших категорий, т.е.  категорий, на которых  принимают наибольшие значения.

Выбор порогового значения возможен, например таким способом. Учебная коллекция разбивается на две части. Для каждой категории  на одной части учебной коллекции вычисляется, какая часть документов ей принадлежит. Пороговые значения выбирается так, чтобы на другой части учебной коллекции количество  документов, отнесенных  , было таким же.

 

4.1.3. Линейная классификация

 

Пусть каждой категории  соответствует вектор ,  где  - размерность пространства термов. В качестве правила классификатора документа используется формула:

.

Нормализация  проводится  обычно таким образом, чтобы итоговая формула для  представляла собой нормированное скалярное произведение - косинус угла между вектором категории  и вектором из весовых значений термов =, входящих в документ :

.

Координаты вектора   определяются в ходе обучения, которое  проводится по каждой категории независимо от других.