О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

ВВЕДЕНИЕ

Nothing`s gonna change my world…

JLennon, PMcCartney

 

Эта книга посвящена новому научному направлению – интернетике.  Сегодня в информационных хранилищах, распределенных в сетях, собраны террабайты текстовых данных. Эти данные можно рассматривать, с одной стороны, как сетевую среду реального информационного поиска, а с другой, как объект и полигон для исследований.  Учет этих факторов привел к необходимости представить краткий обзор истории и современного состояния инфраструктуры Интернет, остановиться на особенностях гипертекстовых технологий, сети WWW, а также обозначить перспективы.

Именно этим аспектам посвящена первая глава книги. Для обеспечения поиска размещенной в сети информации в настоящее время необходима разработка новых подходов. При этом, безусловно,  должны учитываться достоинства и недостатки существующих моделей и алгоритмов информационного поиска, которым посвящена вторая глава.  В этой главе  уделено внимание  также моделям поиска в пиринговых сетях - крупнейших  по ресурсам и порождаемому интернет-трафику. В таких сетях отсутствуют выделенные серверы, а каждый узел является как клиентом, так и сервером. Пиринговые сети состоят из узлов, каждый из которых взаимодействует лишь с некоторым подмножеством других узлов. При освещении этой тематики учитывались то, что  проблемы поиска и уязвимости в таких сетях до сих пор остаются открытыми. Рассмотрены основные модели поиска, все более широко применяемые в пиринговых сетях, а также проблемы, связанные с распространением подобных сетей.

В третьей главе  рассматривается концепция глубинного анализа текстов – Text Mining, которая включила в себя технологические и методологические подходы контент-анализа, компьютерной лингвистики. В частности, в этой главе освещены подходы к решению таких задач, как автоматическе реферирование, анализ взаимосвязей понятий, построение поисковых образов документов.

Классификация информации - это традиционная компонента теории и технологии информационного поиска,  лежащая на стыке двух областей -  машинного обучения и информационного поиска. При классификации текстов, методы которой  детально рассматриваются в   четвертой главе,  используются различные критерии для построения правил их размещения в заранее определенные категории.

Пятая глава посвящена вопросам кластерного анализа  массивов текстовых документов. В отличие от классификации, при кластеризации заранее не фиксируются определенные категории. Результатом кластеризации является автоматическая группировка информации в компактные подгруппы. Алгоритмы кластеризации позволяют автоматически находить «скрытые» признаки и разделять объекты по подгруппам. Кластеризация, как правило, предшествует классификации, поскольку помогает экспертам определять группы объектов - классы. В этой же главе подробно рассмотрены основные алгоритмы ранжирования выдачи информационно-поисковых-систем.

В шестой главе приводятся основные закономерности, присущие документальным потокам в современной сетевой среде. При этом уделяется внимание таким необходимым для понимания этих закономерностей математическим понятиям, как степенные распределения, однородные функции и скейлинг.  

Теория информации, которая ранее находила свое основное применение в области  передачи данных, становится полезной и для анализа  текстовых массивов, динамически порождаемых в сетях. Седьмая глава посвящена таким понятиям, как энтропия и количество информации, которые сегодня находят все большее применение в технологиях информационного поиска.

Восьмая глава посвящена теории  сложных сетей (complex networks), в рамках которой  рассматриваются характеристики, учитывающие не только их топологию, но и статистические распределения характеристик узлов и связей. Сегодня эта теория  особо актуальна  в задачах выявления и визуализации различных сетевых кластеров, их внутренних корреляций.

Явления, происходящие в сложных сетях, близки к изучаемым в рамках теории перколяции (протекания), элементы которой излагаются в девятой главе. К задачам теории перколяции и анализа сложных сетей относятся такие, как определение предельного уровня проводимости (пропускной способности), изменения длины пути между узлами и его траектории (извилистости, параллельности) при приближении к порогу протекания, количества узлов, которые необходимо удалить, чтобы нарушить связанность сети.

Математическому моделированию информационных потоков посвящена десятая глава, в которой рассматриваются модели,  учитывающие «конкуренцию» реальных тематик. При моделировании этих процессов используются методы нелинейной динамики, теории клеточных автоматов и самоорганизованной критичности.

При моделировании информационных потоков изучаются структурные связи между входящими в них массивами документов. Сегодня при этом все чаще применяется фрактальный анализ, подход, базирующийся на свойствах сохранения внутренней структуры массивов документов при изменениях их размеров или масштабов рассмотрения. Этому  посвящена одиннадцатая глава.

Хочется подчеркнуть, что традиционно используемый математический аппарат и инструментальные средства  информационного поиска сегодня уже не  способны в полной мере удовлетворять потребности пользователей. Изначальная парадигма поисковых систем, сформированная несколько десятилетий тому назад, уже не отвечает реальной ситуации – объемам и динамике информационных потоков, сетевой топологии. Необходим поиск новых принципов, в рамках которых оказалось бы возможным проектирование качественно новых систем обработки больших и динамичных массивов данных. Цель этой книги – систематически изложить состояние существующих теоретических и технологических возможностей, представить читателю возможные перспективы развития, дать импульс новым идеям в области сетевого информационного поиска.