О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

11.5. Мультифрактальный анализ рядов измерений

 

Наиболее общее описание природы самоподобных объектов дает теория мультифракталов, характеризуемых бесконечной иерархией размерностей, и позволяющая отличить однородные объекты от неоднородных [58]. Концепция мультифрактального формализма [8, 15, 24, 42] дает эффективный инструмент для изучения и количественного описания широкого многообразия сложных систем.

Понятие мультифрактала можно пояснить с помощью специальной модели, описывающей процедуру распределения наследства (например, золота) между поколениями наследников. Данная модель реализует так называемое неоднородное множество Кантора (Y. Kantor), которое строится следующим образом. В начале предполагается, что все «золото» приписывается отрезку  - этому отрезку соответствует «предок» - персона, 100% наследства которой будет распределяться (рис. 75 а).

 

 

a)

 

 

 

 

 

б)

 

 

 

 

 

 

в)

 

 

 

 

 

г)

Рис. 75. Удельные части наследства (ось ординат): а – исходное состояние; б – первый шаг модели; в – второй шаг; г – третий шаг

 

На первой итерации наследство делится между двумя наследниками (в рамках всей этой модели  у каждого «предка» имеется ровно по два наследника) на две неравные части – старший наследник получает -ю часть, а младший - -ю часть (эти пропорции фиксируются и для последующих поколений наследников), при этом для определенности соблюдаются условия: . Соответственно, отрезок  делится на две части - первый отрезок   соответствует младшему наследнику, а второй   -  старшему (рис. 74 б).

Следующий, второй шаг, аналогичен первому. Каждый отрезок, соответствующий первому поколению наследников, снова делится на две равные (с точностью до одной средней точки) части, а наследники получают свои доли, старшие (правые отрезки) -ю, младшие (левые отрезки)  - -ю.  Соответственно, самый  богатый наследник на этом шаге получает   часть начального «золота», а самый бедный - -ю (рис. 74 в).

Уже на третьем шаге (рис. 75 г) выясняется, что наследство распределяется достаточно сложным образом. Для анализа этого распределения удобно рассмотреть древовидную структуру, представленную на рис. 76.

Рис. 76. Дерево пошагового распределения наследства

 

Несложно заметить существующую в этой модели связь между двоичной записью числа и величиной наследства. В самом деле, выберем на рассматриваемом отрезке оси абсцисс некоторую точку , например ,  двоичное разложение которой следующее:  Каждый ноль в двоичной записи означает переход влево () по дереву, представленному на  рис. 75, а единица – переход вправо (). С одной стороны, выполняя эти переходы  мы приближаемся к  в соответствии с процедурой, заданной рассматриваемой моделью, с другой стороны, каждый шаг вправо дает умножение величины наследства предыдущего поколения на , а влево на . Например, для шестого шага, для отрезка, внутри которого лежит , доля первоначального наследства составляет , а для -го шага:

,

где на -ом шаге имеется  нулей и  - единиц.

На этом же шаге имеется  отрезков размером , из них  «золота» имеют  отрезков (наследников). Последнее определяет количество способов, когда проходя по дереву, представленному на рис. 75, можно прийти к величине равной  (количество способов размещения  нулей и  единиц).

Таким образом, полная вероятность встретить отрезок со значением  (или наследника с количеством «золота» ) есть:

.

При  , используя формулу Стирлинга, можно дать следующую оценку величине  :

,

где

.

График функции   приведен на рис. 77.

Множество всех отрезков с заданным значением  является фрактальным (конечно, при ) , для которого достаточно просто вычисляется фрактальная размерность .

 

Рис. 77. График функции

Исходя из того, что на шаге  размер каждого отрезка  равен , а всего таких отрезков - , получаем:

.

Таким образом, как следует из свойств функции  (см. рис. 76), существует целый спектр фрактальных размерностей.

В рамках рассматриваемой модели распределения наследства величина  означает всех наследников, имеющих одно и тоже количество «золота» (определенную часть начального наследства). Как показано выше, количество таких наследников при росте  увеличивается по фрактальному закону. Очевидно, что при крайних значениях  и  фрактальная размерность равна нулю. Действительно, множество самых богатых наследников, имеющих  «золота» состоит из одного человека, то же самое справедливо и для самого бедного, имеющего  первоначального наследства.

Остановимся детальнее на формальном определении мультифрактальности. Носителем мультифрактальной меры является множество  – объединение фрактальных подмножеств . Т.е. мультифрактал можно понимать как некое объединение различных однородных фрактальных подмножеств  исходного множества , каждое из которых имеет свое собственное значение фрактальной размерности.

Для характеристики мультифрактального множества используют так называемую функцию мультифрактального спектра  (спектр сингулярностей мультифрактала), к которой вполне подходил бы термин «фрактальная размерность». Величина  равна хаусдорфовой размерности однородного фрактального подмножества  из исходного множества , которое дает доминирующий вклад в некоторую статистическую сумму (как будет показано ниже, в моменты распределения при заданных значениях порядка моментов ).

Кроме того, для описания мультифрактала используют обобщенные фрактальные размерности . В соответствии с мультифрактальным формализмом, обобщенные фрактальные размерности   определяются соотношением:

где   – вероятность того, что случайная величина (нормированный по общей сумме элемент числового ряда) попадет в некоторый диапазон .

Далее вводится показатель мультифрактального скейлинга , который определяется на основании значений   и  :

Функции  и  связаны друг с другом соотношением:

где  как функция от  определяется из решения уравнения:

И наоборот, если известна фрактальная размерность  (или показатель мультифрактального скейлинга ), то мультифрактальный спектр может быть найден по формуле:

где

Эти соотношения задают кривую    параметрически (как функцию от параметра ) и представляют собой так называемое преобразование Лежандра  от  переменных   и   к переменным  и .

При анализе ряда динамики событий использовался следующий метод расчета  мультифрактальных характеристик. Значения исследуемого ряда нормируются  и ассоциируются с вероятностями  в рамках приведенной выше формуле для расчета обобщеных фрактальных размерностей .

После нормирования  весь диапазон значений ряда  разбивался на  ячеек (участков) длиной . Затем определялась следующая сумма:

где

Как оказалось для рядов, задаваемых динамикой публикаций,   хорошо аппроксимируется линейной зависимостью от ,  в результате чего появилась возможность говорить [128], что числовой ряд  - мультифрактал. Наклон аппроксимирующей линии, полученный методом наименьших квадратов -  определялся по формуле:

Приведенные ниже расчеты относятся к анализу числового ряда отражающих проблематику использования антивирусного программного обеспечения (посуточная динамика  публикаций в интернет-новостях сообщений по данной теме, получаемая с помощью системы контент-мониторинга в течение всего 2007 г. и первого квартала 2008 г.), а также ряда, полученного по уточненной  тематике (первоначальный запрос был расширен словом «тороянский»). Соответствующие посуточные диаграммы приведены на рис. 78.

Рис. 78. Диаграммы интенсивности публикаций по основной (тонкая соединительная линия) и уточненной тематике (жирная линия): ось абсцисс – порядковые номера дней, ось ординат – количество публикаций

 

На рис. 79 показана поверхность – зависимость  от  и  для динамики появления документов. В соответствии с формулой:

был определен мультифрактальный спектр исследуемого ряда (рис. 79).

Во многих мультифрактальных исследованиях основным объектом анализа является зависимость мультифрактального спектра  от индекса сингулярности  (показателя Липшица-Гельдера) . Данная зависимость для рядов, соответствующих основной и уточненной тематике представлена на рис. 80. 

Итак, ряды, соответствующие динамике появления публикаций, в рассмотренных случаях обладают мультифрактальной природой. Вместе с тем соответствующие  исследуемым рядам зависимости (рис. 81), имеют различные параметры кривизны. Этот факт свидетельствует, с одной стороны, о том, что ряд, соответствующий подтематике менее стабилен, чем ряд, соответствующий всей тематике, а с другой стороны, о том, что рассматриваемая подтематика не является репрезентативной для анализа потока публикаций по общей тематике.

ris79-2

Рис. 79. Значения τ(q,m) для исследуемого ряда (запрос «банк»)

ris80-2

Рис. 80. Значения мультифрактального спектра   для исследуемого ряда

Рис. 81. Сравнение  мультфрактальных спектров исследуемых рядов – по основной тематике () и уточненного (*) от индекса сингулярности

 

В свою очередь, для формирования репрезентативных выборок из массивов документов, может быть применен подход, основанный на подобии мультифрактальных спектров, дополняющий традиционные методы, базирующиеся на выявлении содержательного подобия документов. Практическая ценность задачи выявления репрезентативных выборок, основанная на данном подходе, может быть выражена в таких приложениях, как предъявление пользователю обозримых результатов поиска, отражающих весь спектр документального массива (с учетом колебаний интенсивности публикаций по дням) или выделение подмножеств документов для дальнейших детальных исследований.