О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

8.4. WWW как сложная сеть

 

8.4.1. Топология WWW

 

Следует отметить, что как вся информационная сеть WWW, так и ее отдельные фрагменты и даже сайты несут значительную социальную нагрузку, которая позволяет сравнивать их на содержательному уровне с социальными сетями, образованными отношениями людей или цитированием в науке. Веб, будучи, наверное, самой динамической частью информационного пространства,  характеризуется большим количеством скрытых в нем неявных экспертных оценок, реализованных в виде гиперссылок. Поэтому WWW можно с полным правом считать социальной сетью, исследование которой можно  проводить, базируясь на существующем подходе анализа таких сетей - SNA. Много сетевых служб, которые позволяют людям устанавливать связи в Сети, автоматически формируют социальные сети. Кроме того, сегодня бурно развился специальный сервис по целенаправленному построению  социальных сетей в веб-пространстве.    

В 1999 г. А. Брёдер (A. Broder) из  IBM и его соавторы из компаний AltaVista, IBM и Compaq математически описали «карту» ресурсов и гиперсвязей веб-пространства [83], получившей благодаря своей форме название «галстука-бабочки» (Bow Tie, рис. 36). С помощью баз данных и поискового механизма AltaVista было проанализировано свыше 200 млн. веб-страниц и несколько миллиардов ссылок, размещенных на этих страницах.

broder1

Андрей Брёдер

 

ris36-1

Рис. 36. Модель веб-пространства Bow Tie

 

В рамках  общей задачи определения структуры связей между отдельными веб-страницами было выявлено:

-         центральное ядро (28% веб-страниц) - область сильной связности (Strongly Connected Component, SCC), которая образована веб-страницами, связанными между собой так тесно, что следуя по гиперссылкам, из любой из них в конечном счете можно попасть на любую другую не выходя из этой области;

-         22% веб-страниц - это "отправные веб-страницы" (IN). Они содержат гиперссылки, которые в конечном итоге ведут к ядру, но из ядра к ним попасть нельзя;

-         столько же - 22% - "конечных веб-страниц" (OUT), к которым можно прийти по ссылкам из ядра, но нельзя возвратиться назад;

-         22% веб-страниц - отростки - полностью изолированные от центрального ядра: это или "мысы", связанные гиперссылками со страницами любой другой категории, или "перешейки", соединяющие веб-страницы, которые не входят в ядро.

Выявлено, что четыре основных множества - более 90% веб-страниц, топологически относятся к одной компоненте связности. Существуют и "острова", которые вообще не пересекаются с остальными ресурсами Интернет. Единственный способ обнаружить ресурсы этой группы - знать адрес. Никакие поисковые машины не смогут найти эти острова, если они в прошлом каким-то образом не соединялись с другими частями Интернет.

Было обнаружено, что пропорции этих четырех категорий в течение нескольких месяцев оставались неизменными, несмотря на значительное увеличение общего объема веб-ресурсов. Топология и характеристики модели оказались примерно одинаковыми для различных подмножеств веб-пространства, подтверждая тем самым наблюдение о том, что свойства структуры всего веб-пространства Bow Tie также верны и для его отдельных подмножеств. Таким образом, алгоритмы, использующие информацию о структуре веб-пространства, предположительно будут работать и на отдельных его подмножествах [78].

 Были исследованы такие параметры модели Bow Tie, как среднее количество сайтов, через которые связываются любые два сайта гиперссылками, а также распределение входящих и исходящих ссылок. Оказалось, что распределение степеней узлов (входящих и исходящих гиперссылок) веб-пространства (исследовались сайты домена edu в количестве 325729) подчиняется степенному закону, т.е. вероятность того, что соответствующая степень вершины равна , пропорциональна  (для входящих ссылок , а для исходящих ). Кроме того, оказалось, что сеть WWW является «малым миром» со средней длиной кратчайшего пути, равной 11 и относительно большим значением коэффициента кластерности, приблизительно равным 0.15 (для классического случайного графа это значение составило бы 0.0002) .

С большой вероятностью случайно выбранные веб-страницы вообще никак не связаны, если же путь все-таки существует, среднее количество кликов, необходимых для переходов между такими страницами, составляет 16. Если же этот путь рассматривать как двусторонний, то среднее число промежуточных кликов сокращается до семи.  Благодаря полученным результатам, уже сегодня может быть создан инструментарий, способный превратить веб-пространство в систему двустороннего движения. "Сейчас трафик по существу односторонний. Если бы браузер был наделен средствами серфинга в обратном направлении, это открыло бы доступ к гораздо большему числу ресурсов", - заявил по этому поводу представитель IBM Нам Ламор (N. Lamour) [32].

Это свойство структуры веб-пространства сегодня уже довольно широко используется при решении многих задач, например, для оптимизации эффективности механизмов сканирования, при построении новых веб-сервисов, для решения задач анализа и прогноза.

В то же время существует совокупность веб-ресурсов, не видимая «глобальными» поисковыми системами, называемая «скрытым веб». К таким ресурсам, в частности, относятся некоторые динамически формируемые  веб-страницы и документы из баз данных. В этой связи необходимо подчеркнуть некоторую некорректность расчета объемов «островов» по Брёдеру из-за того, что список веб-ресурсов был получен из базы данных системы AltaVista, полученный в результате работы программы-робота, сканирующего веб-ресурсы, переходя от одного к другому по гиперссылкам. В настоящее время широкое распространение получили каталоги «скрытого» веб. Также осуществляются  попытки доступа к объектам «скрытого» веб через специализированные системы поиска.

Л. Бйорнеборном (L. Björneborn) была предложена модель «мятого веб», которая ассоциируется с мятой бумагой. При этом путь между выбранными точками на мятой бумаге чаще всего короче, так как противоположные части листа бумаги соединены вместе. В соответствии с этой моделью каждая новая гиперссылка изменяет все существующие связи, создавая новые деформации «мятой» сети. Т.е. каждая новая гиперсвязь - «крючок», который растягивает или деформирует форму  существующей сети WWW.