О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

3.2.5. Выявление дублирования информации

 

В сети Интернет важные сообщения многократно дублируются на экспоненциально растущем количестве сайтов, в то время как количество заслуживающих внимания источников растет не такими высокими темпами, скорее всего, линейно.

Выявление дублирующихся сообщений (их принято называть «дубликатами»), а также перепечаток документов с небольшими изменениями («почти дублей») является одной из актуальнейших и сложнейших задач. Понятие содержательных дублей документов достаточно расплывчато, до сих пор остается открытой задача анализа таких явлений, как пересказ одних и тех же событий, описание различных аспектов разными людьми.

В свое время определенные (не оправдавшиеся) надежды возлагались на развитие так называемых семантических методов, которые бы позволили оперировать непосредственно со смыслом сообщений, и таким образом избежать проблем его формализации.

С прагматической точки зрения в применении таких методов следует выделить два главных недостатка. Это существенная зависимость практической реализации метода от языка обрабатываемых дкументов (что фактически делает невозможной работу с многоязычными текстовыми массивами) и его неустойчивость: для некоторых информационных массивов результаты очень хорошие, но для других – очень плохие.

Пессимистический взгляд на применение «семантических» методов в области информационных технологий, в общем-то, вполне понятен. Действительно, семантика занимается отношением лингвистических конструкций к предметам и явлениям реального мира, тогда как компьютерные системы могут манипулировать исключительно формальными элементами. Иными словами, в рамках любой информационной технологии можно устанавливать отношения только одних лингвистических конструкций с другими лингвистическими  конструкциями. Вопрос о том, в какой мере все это может отражать семантические связи, остается открытым.

С другой стороны, игнорировать семантические аспекты информационных технологий, несомненно, было бы ошибкой. Интуиция и опыт подсказывают, что понятие семантической близости документов должно иметь определенный смысл и на уровне машинной обработки текстов.

Серьезное упрощение может быть получено за счет применения содержательных методов, например, путями ранжирования первоисточников, определения и выделения тематических информационных каналов, экспертного формирования словарей значимых слов и т.п.

Преодоление использования явно дублирующейся информации не представляет проблем, однако дублирующиеся по смыслу сообщения выявляются не так легко, здесь на помощь приходят  алгоритмы, базирующиеся на вероятностных оценках. На практике явные дубликаты выявляются даже с   помощью механизмов контрольных сумм, но этот подход не решает проблем пользователей, для которых чаще всего не имеет значения, с чем они имеют дело: с прямой перепечаткой или с небольшой перефразировкой. Вместе с тем многие недобросовестные издания перепечатывают содержание сообщений, попросту изменяя заглавия (работа «хедлайнеров»). И такой вид дублирования элементарно обходится с помощью контрольных сумм (но уже без учета заголовков). Дальнейший анализ показал, что при перепечатке материалов чаще всего остаются без изменений несколько первых предложений текста или первый абзац. И этот критерий был учтен и успешно внедрен. Вместе с тем качество выявления содержательного дублирования оставалось недостаточно высоким.

Известны подходы, основанные на учете повторений встречаемости цепочек слов, например, метод «шинглов» (чешуек), описанный в работах [82], [103] и [110]. Этот остроумный и эффективный метод поиска «почти дублей» оказался не очень чувствительным для небольших текстов с возможными перефразировками.

Наиболее прямой путь к установлению связи между произвольным документом и семантическим пространством предполагает наличие некоторого соответствия между устойчивыми сочетаниями слов и единицами смысла. При всей своей внешней банальности, это утверждение отнюдь не тривиально, поскольку речь в нем идет именно о морфизме, но отнюдь не об эквивалентности. 

Устойчивое сочетание слов само по себе вовсе не является единицей смысла. Более того, далеко не всегда единица смысла вообще может быть артикулирована с помощью набора слов. Но между наборами слов и единицами смысла всегда или почти всегда могут быть установлены (вообще говоря, неоднозначно) устойчивые отношения.

Метод выявления дубликатов, используемый, например, в системе InfoStream, в частности, заключается в признании документов дубликатами, если у них совпадает более 6 из 12  отобранных по статистическим критериям ключевых слов (термов, образующих так называемые «словарные сигнатуры» документа). Следует отметить, что применение более «мягкого» критерия к множеству отобранных термов позволяет реализовать режим «поиска подобных документов».

Введем обозначения:  – оператора подобия и  - оператора дублирования.  Очевидно, что для алгоритма выявления подобных документов и дубликатов, о котором идет речь, справедливо правило рефлексивности:

где  – произвольный документ.

Оператор подобия не обладает свойством симметричности. Из подобия документа  документу  не следует обратного, т.е.:

Также не выполняется условие транзитивности:

 Действительно, например, отельный документ может быть подобен тексту из подборки, которая его включает, но сама подборка может не быть подобной этому документу. Или документ может быть подобен двум документам, из которых он скомпилирован, но сами оригиналы могут существенно отличаться.

Для отношения дублирования, наоборот, симметричность и транзитивность выполняются:

Заметим, что отношение, обладающее свойствами рефлексивности, симметричности и транзитивности является отношением эквивалентности, в нашем случае, отношением содержательного совпадения или дублирования.

Как было замечено, свойство дублирования документов является более жестким критерием подобия, например, совпадение 3, 4 или 5 термов свидетельствуют о некоторой содержательной близости.

На практике каждой паре документов   и  из контрольного документального массива ставился в соответствие вектор с  элементами:

 

 

Условие симметричности в этих обозначениях записывается следующим образом:

   

а транзитивность определяется выполнением условия:

Были исследованы критерии подобия (изменяя количество сравниваемых в словесных сигнатурах документов термов), чтобы достичь на контрольном документальном корпусе максимального уменьшения коэффициента асимметричности:

 

 и увеличения коэффициента транзитивности:

где  – количество документов в контрольном  массиве.

Очевидно, что так рассчитываемый коэффициент асимметричности ассоциируется с огрублениями при определении дубликатов, а уровень транзитивности – с полнотой.

Вместе с тем следует заметить, что проверка коэффициентов асимметричности и транзитивности может использоваться лишь для формальной проверки приближения отношения к свойствам эквивалентности. Само определение того, что эта эквивалентность – содержательное дублирование должно быть предоставлено аналитиками-экспертами. Приведенный выше алгоритм, кроме своего эмпирического подтверждения, хорош тем, что позволяет   варьировать некоторым параметром (количеством сравниваемых термов), значение которого можно подобрать с учетом оптимизации двух названных коэффициентов.