О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

8.4.2. Сетевая структура новостного веб

 

Новостной веб представляет собой фрагмент веб-пространства, к которому можно отнести сайты информационных агентств, онлайновых СМИ, новостные разделы сайтов государственных учреждений и т.п.

В отличие от существующих моделей веб-пространства, при анализе  сети, образованной новостными ресурсами, необходимо было учитывать чрезвычайно высокую динамику информационных потоков, контекстные (не только гипертекстовые) ссылки, эффект содержательного дублирования. Кроме того, применение   модели А. Бредера к новостной составляющей веб-пространства, по-видимому,  нельзя считать корректным по ряду причин:

-         на наиболее актуальные сообщения на протяжении определенного времени ссылок может вообще не существовать;

-         модель Бредера не учитывает особенности «скрытого» веб, т.е. тех информационных веб-ресурсов, на которые не существует прямых гиперссылок;

-         в новостных потоках необходимо учитывать не только гиперссылки, но и ссылки контекстные, причем не только на объекты из открытой части веб-пространства (это могут быть даже оффлайновые публикации из изданий, возможно и присутствующих в сети Интернет);

-         модель Бредера не учитывает такого понятия, как содержательное дублирование информации;

-         при построении модели структуры новостного веб наибольшее внимание должно уделяться именно веб-сайтам, на которых публикуются новостные сообщения, а не отдельным веб-страницам или самим сообщениям.

В качестве экспериментальной базы для построения модели новостного веб-пространства использовался информационный корпус системы  InfoStream [31], обеспечивающей автоматизированный сбор  информации с открытых веб-сайтов. Для построения модели для каждого из 2500 источников, охватываемых системой, был составлен запрос следующего вида:

<код источника><шаблоны для поиска>.

Совокупность  подобных запросов была объединена в пакет, в  результате специальной обработки которого для каждого сообщения, относящегося к определенному источнику - веб-сайту, были выявлены исходящие ссылки на другие источники (ссылки на собственный источник исключались). Было выявлено, что исходящие контекстные ссылки присутствовали на 484945 сообщениях с 2323  веб-сайтов.

Также было получено распределение новостных источников по количеству веб-сайтов, имеющих на них ссылки.  Всего за месяц ссылки указывали на 1459 источников (без самоцитирования). Оказалось, что на 100 источников ведет свыше 80% ссылок.

Ниже приведен начальный фрагмент ранжированного списка новостных источников, на которые ведут ссылки с максимального количества веб-сайтов:

Web-сайт

Количество ссылающихся веб-сайтов

ИА «Интерфакс»

1051

«РосБизнесКонсалтинг»

983

"Reuters"

882

ИТАР-ТАСС

787

РИА «Новости»

773

УНИАН

675

Радио «Свобода»

662

НТВ

631

«Коммерсантъ»

623

BBC

598

«Комсомольская правда»

595

 

 

Следует отметить, что оценка уровня источника информации как «автора» преимущественно по количеству веб-сайтов, с которых на него ведут гиперссылки, вполне согласуется с предложенным Лемпелем и  Мораном алгоритмом Salsa [108].

Интересным оказался график двумерного сечения значений , где   - количество входящих ссылок,   - количество исходящих ссылок для каждого из источников (рис. 37). Этот график послужил основой идеальной схемы представления областей модели в зависимости от количества исходящих и входящих ссылок (рис. 38).

 

 

Рис. 37. График распределения зоны ядра в координатах «логарифм количества исходящих сообщений – логарифм количества входящих сообщений»

 

Рис. 38. Представление областей модели в зависимости от количества исходящих и входящих ссылок

 

В результате проведенных исследований была построена модель новостного веб-пространства, основанная на контекстных ссылках. Также предложены подходы к выявлению основных зон модели новостного веб-пространства и рассчитаны числовые соотношения различных зон  модели.

Разработанная  модель новостного веб позволила выявить те же основные подсети, что и в модели веб-пространства, но процентные соотношения между ними оказались различными.