О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

11.4. Фракталы и временные ряды

 

Объемы сообщений в тематических информационных потоках образуют временные ряды (например, ряд, состоящий из значений количества публикаций в отдельные дни, рис. 67). Для исследования временных рядов сегодня все шире используется теория фракталов.

Изучение характеристик временных рядов, порождаемых информационными потоками, сообщения которых отражают процессы, происходящие в реальном мире, дает возможность прогнозировать их динамику, выявлять скрытые корреляции, циклы и т.п.

В этом разделе будут описаны основные алгоритмы, применяемые при исследовании фрактальных свойств рядов измерений. В качестве иллюстраций приведены результаты реальных численных экспериментов. Как  база для исследования фрактальных свойств рядов, отражающих интенсивность публикаций тематических информационных потоков, использовалась система контент-мониторинга новостей с веб-сайтов сети Интернет InfoStream. Тематика исследуемого информационного потока определялась запросом к этой системе.  Данные для исследований  были получены из интерфейса режима «Динамика появления понятий».

В ходе исследований обрабатывался информационный корпус, содержащий сообщения онлайновых СМИ - массив из 14069 документов, опубликованных с 1 января 2006 г. по 31 декабря 2007 г., по тематике компьютерной вирусологии, удовлетворяющих запросу:

 «компьютерный вирус» OR «вирусная атака» OR (антивирус AND (программа OR утилита OR Windows OR Linux)).

Ниже анализируетсятся временной ряд из количества тематических публикаций за указанный период с определенной дискретностью по времени в сутки (рис. 68).

Остановимся подробнее на некоторых методах анализа подобного типа временных рядов, порождаемых, в частности, информационными потоками.

 

11.4.1. Метод DFA

 

Один из универсальных подходов к выявлению самоподобия основывается на методе DFA (Detrended Fluctuation Analysis) [121] – универсальном методе обработки  рядов измерений.

Рис. 68. Количество тематических публикаций (ось ординат) в разрезе дат (ось абсцисс)

 

   Метод DFA представляет собой вариант дисперсионного анализа, который позволяет исследовать эффекты продолжительных корреляций в нестационарных рядах. При этом анализируется среднеквадратичная ошибка линейной аппроксимации в зависимости от размера отрезка аппроксимации. В рамках этого метода сначала осуществляется приведение данных к нулевому среднему (вычитание среднего значения  из временного ряда , ) и строится случайное блуждание :

   

Потом ряд значений ,  разбивается на неперекрывающиеся отрезки длины n, в пределах каждого из которых методом наименьших квадратов определяется уравнение прямой,  аппроксимирующей последовательность .

Найденная аппроксимация  () рассматривается как локальный тренд.                                      

  Далее вычисляется среднеквадратичная ошибка линейной аппроксимации D(n) при широком диапазоне значений n:

.

 В случае, когда зависимость  имеет степенной характер ,  т.е. наличия линейного участка при двойном логарифмическом масштабе , можно говорить о существовании скейлинга.

 Как видно по рис. 69, значения  для выбранного информационного потока степенным образом зависят от , т.е. в двойном логарифмическом масштабе эта зависимость близка к линейной.

 

11.4.2. Корреляциионный анализ

 

Если обозначить через  член ряда количества публикаций (количества электронных сообщений, поступивших, например, в день ), то функция автокорреляции для этого ряда Х определяется как:

   

где m – среднее значение ряда Х, которое в дальнейшем, не ограничивая общности, будем считать равным 0 (это достигается переприсвоением значению Хt  значения  Хt - m). Предполагается, что ряд X может содержать скрытую периодическую составляющую.

 

Рис. 69. Зависимость D(n) ряда  наблюдений (ось ординат) от длины отрезка аппроксимации n (ось абсцисс) в  логарифмической шкале

 

Известно, что функция автокорреляции обладает тем свойством, что если скрытая периодическая составляющая существует, то ее значение асимптотически приближается к квадрату среднего значения исходного ряда .

Если рассматриваемый ряд периодический, т.е. может быть представлен как:

             

то его функция автокорреляции будет равна:

                                 

Этот результат [59] показывает, что функция автокорреляции периодического ряда также является периодической, содержит основную частоту и гармоники, но без фазовых углов

Рассмотрим числовой ряд , являющийся суммой некоторой содержательной составляющей  и синусоидальной сигнала :

         

Найдем функцию автокорреляции для этого ряда (значения приведены к среднему ):

 

Очевидно, первое слагаемое есть функция непериодическая, асимптотически стремящаяся к нулю. Так как взаимная корреляция между  и  отсутствует, то то третье и четвертое слагаемое также стремятся к нулю. Таким образом, самый значительный ненулевой вклад составляет второе слагаемое – автокорреляция сигнала . Т.е. функция автокорреляции ряда  остается периодической.

Для экспериментального подтверждения рассмотренной гипотезы была  сгенерирована последовательность, по своей природе напоминающая реальный информационный поток. Предполагалось, что ежедневное количество сообщений в сети  растет по экспоненциальному закону (с очень небольшим значением экспоненциальной степени), и на это количество накладываются колебания, связанные с недельной цикличностью в работе информационных источников. Также принимается во внимание некоторый элемент случайности, выраженный соответствующими отклонениями.

Для получения соответствующего временного ряда были рассмотрены значения функции:

которая реализует простейшую модель информационного потока – экспонента отвечает за рост количества публикаций во времени (общая тенденция), синус – за недельную периодичность, параметр  – за случайные отклонения. Количество публикаций  не может быть отрицательным числом. На рис. 70 представлен график модели (ось абсцисс – переменная  – день,  ось ординат – переменная  – количество публикаций).

Рис. 70.  Модель потока с экспоненциальным ростом

 

Исходный ряд был обработан: приведен к нулевому среднему и нормирован (каждый член разделен на среднее). После этого были рассчитаны коэффициенты корреляции, которые  для рядов измерений  длиной рассчитываются по формуле:

где функция автокорреляции;  дисперсия.

На рис. 71 приведен график значений коэффициентов корреляций (ось абсцисс – переменная k,  ось ординат – коэффициент корреляции R(k).

Графическое представление коэффициента корреляции для ряда наблюдений, соответствующего динамике реального информационного потока веб-публикаций свидетельствует о неизменности корреляционных свойств по дням недели (рис. 72). Вместе с тем коэффициенты корреляции ряда наблюдений, усредненного по неделям, аппроксимируются гиперболической функцией, которая характеризует долгосрочную зависимость членов исходного ряда (рис. 73).

Рис. 71.  Значения коэффициентов корреляции модели

        

Рис. 72. Коэффициенты корреляции  ряда наблюдений (ось ординат) в зависимости от (ось абсцисс)

Рис. 73. Коэффициенты корреляции  ряда наблюдений  (ось ординат), усредненного по неделям в зависимости от (ось абсцисс)

 

11.4.3. Фактор Фано

 

Для изучения поведения процессов принято использовать еще один показатель – индекс разброса дисперсии (IDC), так называемый фактор Фано (U. Fano) [90]. Эта величина определяется как отношение дисперсии количества событий (в нашем случае – количества публикаций) на заданном окне наблюдений  k  к соответствующему математическому ожиданию:

        

Для самоподобных процессов выполняется соотношение:

        

где  и  – константы. На рис. 73 приведен график значений  в логарифмическом масштабе, при этом  и .

Рис. 74. Зависимость фактора Фано от ширины окна наблюдений

11.4.4. Показатель Херста  

 

Показатель Херста (H.E. Hurst) -  связан с коэффициентом нормированного размаха , где  - вычисляемый  определенным образом «размах» соответствующего временного ряда, а   - стандартное отклонение [102]. Г.Э. Херст (1880 – 1978) экспериментально обнаружил, что для многих временных рядов справедливо: . В [58] показано, что он связан с традиционной «клеточной» фрактальной размерностью  простым соотношением:

.                                    

Условие, при котором показатель Херста связан с фрактальной «клеточной» размерностью в соответствии с приведенной формулой, определено Е. Федером следующим образом: «… рассматривают клетки, размеры которых малы по сравнению как с длительностью процесса, так и с диапазоном изменения функции; поэтому соотношение справедливо, когда структура кривой, описывающая фрактальную функцию, исследуется с высоким разрешением, т.е. в локальном пределе». Еще одним важным условием является самоаффинность функции. Не вдаваясь в подробности, заметим, что для информационных потоков это свойство интерпретируется как самоподобие, возникающее в результате процессов их формирования. Можно отметить, что указанными свойствами обладают не все информационные потоки, а лишь те, которые характеризуются достаточной мощностью и итеративностью при формировании. При этом временные ряды, построенные на основании мощных тематических информационных потоков, вполне удовлетворяют этому условию. Поэтому при расчете показателя Херста фактически определяется и такой показатель тематического информационного потока как фрактальная размерность.

Известно, что показатель Херста представляет собой меру персистентности - склонности процесса к трендам (в отличие от обычного броуновского движения). Значение H > ½ означает, что направленная в определенную сторону динамика процесса в прошлом, вероятнее всего, повлечет продолжение движения в том же направлении. Если H < ½, то прогнозируется, что процесс изменит направленность. H = ½ означает неопределенность — броуновское движение.

Для изучения фрактальных характеристик тематических информационных потоков за определенный период для временных рядов , , составленных из количества относящихся к ним сообщений, изучалось значение показателя Херста, которое определялось из соотношения:

      .                                       

Здесь – стандартное отклонение:

     

а - так называемый размах:

     

где

Исследования фрактальных свойств рядов измерений, получаемых в результате мониторинга тематических информационных массивов из Интернет, свидетельствуют о том, что при увеличении  показатель  принимает значения 0.65 ¸ 0.75. Ввиду того, что значение  намного превышает ½,  в этом ряду обнаруживается персистентность (существование долговременных корреляций, которые могут быть связаны с проявлением детерминированного хаоса). Если предположить, что ряд  является локально самоаффинным (этот вопрос в настоящее время открыт), то он имеет фрактальную размерность , равную

D = 2 – H » 1.35 ¸ 1.25.

То есть, исследования тематических информационных потоков подтверждают предположение о самоподобии и итеративности процессов в веб-пространстве. Републикации, цитирование, прямые ссылки и т.п. порождают самоподобие, проявляющееся в устойчивых статистических распределениях и известных эмпирических законах.

В результате экспериментов было подтверждено наличие высокого уровня статистической корреляции в информационных потоках на продолжительных временных интервалах. На основе рассмотренного примера показана высокая персистентность процесса, что, в частности, свидетельствует об общей тенденции увеличения публикации по выбранной тематике.

Анализ самоподобия информационных массивов может рассматриваться как технология для осуществления прогнозирования.

 

Купить сигнализацию Cenmax в Туле.