О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

 Пивоварова Л

Л.М. Пивоварова

Санкт-Петербургский государственный университет

УСТОЙЧИВЫЕ КОНСТРУКЦИИ, ХАРАКТЕРИЗУЮЩИЕ ТЕКСТЫ СМИ

Данная работа является частью большого исследования1, направленного на изучение неоднословных целостностей (коллокаций) в текстах различных функциональных стилей. Публикации СМИ в этом смысле являются важнейшим объектом исследования, поскольку газетные (в первую очередь новостные) тексты имеют большое значение как для прикладных разработок, так и для теоретических лингвистических исследований. Новостные тексты несут большие объемы актуальной и постоянно обновляющейся информации; они часто становятся объектом автоматического анализа в прикладных системах, в том числе в системах фактографического поиска (в разработках таких компаний, как «Яндекс», «Галактика-Зум» и др.). С теоретической точки зрения тексты СМИ представляют значительный интерес как вариант публицистического стиля.

Неоднословные целостности различной природы играют большую роль в текстах СМИ: это и сложные номинации (имена собственные, названия должностей и пр.), и термины, заимствованные из различных наук и из официально-делового стиля, и устойчивые обороты (клише). В понятие коллокации мы включаем все эти разновидности, а также любое другое неслучайное сочетание двух и более лексических единиц. Вопрос о том, является ли данное сочетание неслучайным, можно решать различными способами, однако наш подход основывается на использовании двух статистических мер2: MI и t-score, выбор такого похода определяется тем, что мы имеем дело с большими массивами текстов, а список потенциальных коллокаций принципиально не задан (подробнее см.1).

MI (mutual information, коэффициент взаимной информации) сравнивает зависимые контекстно-связанные частоты с независимыми, как если бы слова появлялись в тексте совершенно случайно.

MI=log2,

где

MI объем информации;

n – ключевое слово;

c – коллокат;

f(n,c) –  абсолютная частота встречаемости ключевого слова n в паре с коллокатом с;

f(n), f(c) – абсолютные частоты ключевого слова n и слова c в корпусе;

N – общее число словоформ в корпусе.

Другой мерой, которая использовалась в данном исследовании, стала мера t-score, которая учитывает частоту совместной встречаемости ключевого слова и его коллоката, отвечая на вопрос, насколько не случайной является сила ассоциации (связанности) между коллокатами. Мера t-score рассчитывается по формуле (условные обозначения здесь приняты те же, что и выше для MI):

При подсчете обеих мер учитывался порядок коллокатов внутри коллокации – для каждого порядка меры подсчитывались отдельно. Обе меры были посчитаны как для лемм, так и для словоформ, для последовательностей слов, не разделенных знаками препинания. При этом при подсчете обеих мер использовался порог отсечения по частоте, равный трем – рассматривались только те последовательности слов, абсолютная частота  которых в данной выборке (подвыборке) более трех (необходимость порогов отсечения при подсчете меры MI признается многими исследователями; подробнее этот вопрос рассмотрен в1).

Основным объектом исследования в данной работе является коллекция новостных сообщений портала Lenta.ru за 2009 год, общим объемом более десяти миллионов токенов (словоупотреблений и знаков препинания), а также двенадцать подмножеств данной коллекции, каждая из которых содержит документы за один месяц. Одиннадцать месяцев представлены сравнимыми объемами – от 800 000 до 1 000 000 словоупотреблений, а декабрь представлен несколько меньшим объемом, что связано с датой получения коллекции.  Морфологическая разметка коллекции осуществлялась В.В. Бочаровым при помощи свободно распространяемого программного обеспечения АОТ (www.aot.ru).

В тех месяцах, которые представлены в коллекции в полном объеме, обнаружено около 30000 биграмм с частотой более 3-х. Затем эти биграммы были отранжированы i) по значению меры MI и ii) по значению меры t-score. Обработка осуществлялась как по всей коллекции (охватывающей 2009 год), так по 12 подвыборкам, каждая из которых включала тексты портала за один из месяцев 2009 года. Таким образом, получилось двадцать шесть различных списков биграмм. Первые сто биграмм из каждого списка были подвергнуты содержательному анализу.

В проведенном нами ранее исследовании1 уже было показано, что используемые в работе статистические меры MI и t-score позволяют охарактеризовать предметную область и стилистические особенности новостных текстов:

o   коллокации, выделяемые с помощью MI, позволяют определять наименования объектов, термины, сложные номинации, отражающие предметную область;

o   критерий t-score направлен на выделение «общеязыковых» устойчивых сочетаний (производных служебных слов, дискурсивных слов) и «устойчивых конструкций», а также «общеколлекционно значимых» сочетаний.

В данной работе мы пытались оценить степень различий, между списками, полученными при помощи одной и той же меры на разных подвыборках, где каждая подвыборка содержит текст за определенный месяц (от января по декабрь 2009 года).

В данной работе проверке подлежат гипотезы

1.       в списках коллокаций, полученных с помощью меры MI (на подвыборках за разные месяца), должно быть небольшое число пересечений, поскольку эта мера лучше отражает тематику текстов, а темы новостных текстов непрерывно меняются.

2.       в списках коллокаций, полученных с помощью меры t-score (на подвыборках за разные месяцы), должны быть большое число пересечений, поскольку эту мера лучше отражает стилистку текстов, а она в рамках одного и того же СМИ меняется гораздо медленнее, чем тематика.

По результатам исследования основные гипотезы подтвердились.

1. В списках коллокаций, полученных за разные месяца с помощью меры MI, выявлено небольшое число пересечений. Примерно 50% биграмм появляется только в одном списке, остальные попадают не более, чем в пять списков (как правило – в два-три); менее 50% процентов (46 биграмм) из первой сотни годового списка попали в первую сотню какого-либо из месячных списков, при этом как правило только в одном месяце. Заметим также, что три биграммы, которые попали в первую сотню в половине или более месяцев, не попали в первую сотню для года: ЭЛЬВИРА НАБИУЛЛИН (январь, февраль, май, июнь, июль, ноябрь), АНДЖЕЛИНА ДЖОЛИ (январь, февраль, март, апрель, май, июль, октябрь) и КОКТЕЙЛЬ МОЛОТОВ (январь, май, июль, сентябрь, октябрь, ноябрь) .Это можно объяснить особенностями меры MI, которая как правило, завышает значимость  редких словосочетаний; слово ДЖОЛИ встретилось в годовой выборке 69 раз, в январской – 10, АНДЖЕЛИНА – 53 раза в годовой выборке и 8 раз в январской. Этого расхождения по частоте оказалось достаточно, чтобы в годовой выборке, упорядоченной по значению меры MI, биграмма АНДЖЕЛИНА ДЖОЛИ оказалась на 1668 месте. Именно поэтому те биграммы, которые встречаются в первой сотне годового списка, встречаются (если встречаются) только в одном-двух месячных списках – в этом случае расхождение в частотах не столь велико.

2. В списках коллокаций, полученных за разные месяца с помощью меры t-score, выявлено большое количество пересечений. Первые сто биграмм из годового списка, упорядоченных по значению меры t-score, повторяются в нескольких месячных списках, причем более, чем в половине случаев – во всех двенадцати списках (например, ОБ ЭТО, ОДИН ИЗ, А ТАКЖЕ, ПО ДАННЫМ, КРОМЕ ТОТ, МИЛЛИАРД ДОЛЛАР, УГОЛОВНОЕ ДЕЛО и др.). Большой интерес, однако, представляют биграммы, которые оказались уникальными в месячных списках: в список таких  коллокаций попали биграммы, наш взгляд, отражающие тематику месяца:  это ПОСТАВКА ГАЗ и НА УКРАИНА для января, ЧЕМПИОНАТ МИР для февраля, МАЙКЛ ДЖЕКСОН для июля (напомним, что в этом месяце известный певец скончался), ЮЖНЫЙ ОСЕТИЯ и САЯНО-ШУШЕНСКИЙ ГЭС для августа, ХРОМОЙ ЛОШАДЬ и НЕВСКИЙ ЭКСПРЕСС для декабря.

Полученные результаты могут оказаться крайне полезным для выделения основного сюжета коллекции. Мера MI, которая, на первый взгляд кажется более полезной для этой цели, сама по себе не дала значительных результатов. Эта мера предназначена для поиска терминов – т.е. пар слов, которые сильно связанны между собой и употребляются вместе значительно чаще, чем по отдельности. Однако связность сама по себе еще не является залогом «тематичности». Для научных текстов мера MI, как правило, хорошо выделяет терминологические словосочетания, которые, в свою очередь, адекватно отражают тематику коллекции3. Однако для новостных текстов это не так – сильно связанными оказываются имена собственные, любые имена собственные, независимо от их отношения к тематике коллекции: в первой сотне биграмм в годовой выборке оказалось только три имени нарицательных; львиная доля остальных биграмм – имена людей, которые мало что говорят обывателю: АДИЛ СОЗ, АЛЛОДИН ФОЗЕРДЖИЛЛ, ДЖАБАЛ АЛЬ-ДУХАН, АЛДИС ЛИЕЛЮКСИС и др.

Тем не менее, мера MI может быть эффективно использована  для определения тематики коллекции при условии дополнительных ограничений – а именно, более высокого порога отсечения. В нашем предыдущем исследовании1, которое проводилось на близком материале (новостные тексты портала Lenta.ru за период c мая по декабрь 2009-го года, морфологически размеченные с использованием тех де инструментов) рассматривались только биграммы, встретившиеся в коллекции более сорока раз. При этом ограничении  в первую сотню попали такие значимые для 2009 года биграммы, как ХРОМОЙ ЛОШАДЬ и НЕВСКИЙ ЭКСПРЕСС, а также ГОЛУБОЙ ФИШКА, АНДРОННЫЙ КОЛАЙДЕР и проч.

Резюмируя сюжет о выделении основных тем коллекции, можно выстроить некоторую иерархию используемых мер: использование t-score для этой цели гораздо хуже MI, однако пересечения списков коллокаций, полученных для разных месяцев с помощью t-score (Δt-score) оказывается гораздо более осмысленным, чем списки, полученные с помощью меры MI; в свою очередь мера MI с высоким порогом отсечения (MIT) оказывается более полезна для определения тематики коллекции, чем Δt-score. Пересечение списков, полученных для разных месяцев с использованием меры MI (ΔMI), не представляется осмысленным, так как эти списки практически не пересекаются.

Примечания

1Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов –  Сб. НТИ, Сер.2, №5. М., 2010

2Хохлова М.В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: Корпусные подходы. Под ред. А. Мустайоки, М.В. Копотева, Л.А. Бирюлина, Е.Ю. Протасовой. Хельсинки, 2008. С.343–357

3Ягунова Е.В., Пивоварова Л.М. Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения. СПб., 2010 (в печати)