О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

Коллокации понимаются нами как неслучайное сочетание двух и более лексических единиц, характерное как для языка в целом (текстов любого типа), так и определенного типа текстов (или даже (под)выборки текстов)

ИЗВЛЕЧЕНИЕ И КЛАССИФИКАЦИЯ КОЛЛОКАЦИЙ НА МАТЕРИАЛЕ НАУЧНЫХ ТЕКСТОВ. ПРЕДВАРИТЕЛЬНЫЕ НАБЛЮДЕНИЯ

Ягунова Е.В., Пивоварова Л.М.

V Международная научно-практическая конференция "Прикладная лингвистика в науке и образовании" памяти Р.Г. Пиотровского (1922-2009) : Материалы. СПб., 2010. с. 356-364

 

1. Введение

В данном докладе мы рассматриваем автоматическое извлечение информации о предметной области корпуса научных текстов, что неотделимо от задач выделения наиболее важных терминов. Нас интересует предметная область научных текстов, посвященных теоретической и прикладной лингвистике. Большинство интересующих нас терминов этой предметной области оказываются неоднословными.

Коллокации понимаются нами как неслучайное сочетание двух и более лексических единиц, характерное как для языка в целом (текстов любого типа), так и определенного типа текстов (или даже (под)выборки текстов). В литературе часто встречается понимание лингвистами коллокаций как несвободных сочетаний, не относящихся к идиомам, но исчислимым – представленным в виде закрытого списка. Однако этот список не всегда  соотносим с исследованием тех особенностей, которые не просто заложены в языке (всех текстах на этом языке), но отражают особенности рассматриваемой коллекции (в данном случае – коллекции научных текстов). Использование различных статистических  мер позволяет:

o   автоматически выделить из текстов коллокации (разные меры – разные типы коллокаций);

o   ранжировать их по степени устойчивости в соответствии со значениями выбираемых мер.

Множество выделяемых терминологических коллокаций в существенной степени характеризуют предметную область рассматриваемой коллекции. Чрезвычайно актуальным статистический метод становится в случае становления новой предметной области, изменения терминологии (особенно при сосуществовании разных научных парадигм, каждая из которых использовать свой терминологический аппарат). Для того, чтобы установить состав терминологических единиц, могут применяться статистические меры оценки неслучайности совместной встречаемости единиц.

Кроме того, для текстов научного стиля статистически определяются составные слова (напр., предлоги, дискурсивные слова) и устойчивые конструкции, характеризующие особенности «стиля»: смысловой и коммуникативной структур текста

 

В основу данной работы положены следующие гипотезы:

n  использование меры MI (подробнее см. п.2) позволяет выделить «ключевые» неоднословные термины, которые характеризуют предметную область коллекции;

n  использование меры t-score (подробнее см. п.2) позволяет выделить:

     «устойчивые сочетания» (производные служебные слова, дискурсивные слова),

     «устойчивые конструкции», где и те, и другие характеризуют стилистические особенности научных текстов,

     коллокации, общие для всех (или подавляющего большинства) текстов коллекции.

 

2. Материал и методика

В качестве основного материала использовалась монотематическая коллекция материалов конференции «Корпусная лингвистика» 2004-2008 года[1]. Объем коллекции составляет около 220000 «токенов» - словоупотреблений и знаков препинания.

Морфологическая разметка коллекций осуществлялась В.В. Бочаровым[2] при помощи свободно распространяемого программного обеспечения АОТ (www.aot.ru). Для разметки использовался, в первую очередь, модуль морфологической анализа; модуль синтаксического анализа использовался для частичного снятия морфологической омонимии. При выделении коллокаций учитывалась пунктуация: рассматривались любые последовательности слов в тексте, не разделенных знаками препинания.

Нами использовались две статистические меры MI и t-score (см. об этих мерах подробнее в обзорах [Stubbs 1995; Хохлова 2008]).

Мера MI (mutual information, коэффициент взаимной информации):

MI=log2,

Мера t-score:

Условные обозначения:

n – ключевое слово;

c – коллокат;

f(n,c) –  абсолютная частота встречаемости ключевого слова n в паре с коллокатом с;

f(n), f(c) – абсолютные частоты ключевого слова n и слова c в корпусе;

N – объем корпуса (в количестве словоупотреблений).

С точки зрения теории вероятности, мера MI является способом проверить независимость появления двух слов в тексте — если слова полностью независимы, то вероятность их совместного появления равна произведению вероятностей появления каждого из них. Для данной меры используется порог отсечения по частоте (в данной работе он равен 16). Значение порога зависит от задачи и объема корпуса: высокий порог обусловлен задачей выделения наиболее значимых, характерных для данной коллекции словосочетаний.

Мера t-score используется гораздо реже, чем мера MI, поскольку она является лишь несколько модифицированным ранжированием коллокаций по частоте. Очевидно, что значение данной меры тем выше, чем выше частота коллокации в коллекции. Данная мера содержит коррекционный компонент, но эта поправка отражается лишь на самых частотных словах. Это свойство часто делает данную меру малопригодной для поиска терминологических словосочетаний, и для этой цели она, как правило, не используется.

Мы учитывали порядок коллокатов внутри биграммы; были получены списки как словоформных, так и лексемных биграмм (они отражают разные аспекты и уровни лексико-грамматической информации).

Из списков были удалены биграммы, включающие слово(-а), написанные латиницей. Затем биграммы упорядочивались по убыванию значения меры MI или t-score.  Содержательному анализу подлежали первые 90 биграмм из получившихся списков (ср. [Ягунова, Пивоварова 2010]).

 

3. Результаты. Обсуждение результатов.

3.1. Биграммы, выделяемые с помощью меры MI

В таблице 1 представлен список биграмм, полученных с помощью меры MI. Первоначально этот список включал как терминологические биграммы, так и биграммы, характеризующие стиль текстов рассматриваемых коллекций. Использование частеречного (морфологического) фильтра позволяет существенно повысить точность выделения именно терминологических словосочетаний.

Сочетания, которые были удалены на этапе выделения терминологических коллокаций с использованием морфологического фильтра выделены в таблице курсивом. Подчеркиванием выделены те сочетания, которые на основании формальных критериев могут быть ошибочно отнесены к терминологическим.

На наш взгляд, биграммы, выделяющиеся и для лексем, и для словоформ, наиболее информативны для решения задач данной работы (см. обоснование в [Ягунова, Пивоварова 2010]). В такое пересечение входят наиболее информационно-нагруженные и точные сочетания, характеризующие данную коллекцию (см. табл. 1). Для простоты восприятия в таблицах биграммы списка представлены в виде сочетаний словоформ (соответствующей словоформной биграмме).

Таблица 1. Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ

п.п.

биграммы

п.п.

биграммы

2

наш

взгляд

37

таким

образом

3

(по) крайней

мере

40

разрешения

неоднозначности

4

речевой

деятельности

41

английский

язык

5

художественной

литературы

43

кроме

того

7

первую

очередь

47

Национальный

корпус

9

общим

объемом

48

грамматических

категорий

11

корпусная

лингвистика

52

устная

речь

13

имена

собственные

54

база

данных

15

математической

лингвистики

58

во

многих

16

словарной

статьи

61

лексических

единиц

17

свою

очередь

62

дает

возможность

18

предметной

области

63

зависит

от

19

машинного

перевода

64

отличие

от

20

точки

зрения

65

русский

язык

22

за

счет

67

корпусные

данные

24

речь

идет

68

отличается

от

25

прежде

всего

71

зависимости

от

26

большое

количество

72

работы

над

28

настоящее

время

79

частей

речи

31

представляет

собой

80

во

всех

32

млн

словоупотреблений

84

при

помощи

34

другой

стороны

86

морфологической

разметки

35

семантических

состояний

87

говорить

о

36

одной

стороны

 

 

 

Этого списка достаточно, чтобы получить предварительную информацию о наиболее важных неоднословных терминах: объектах исследования, материале, методах, результатах (ср. с исследованием по ключевым словам для текстов этой коллекции [Ягунова 2010]).

 

3.2. Биграммы, выделяемые с помощью меры t-score

Коллокации с максимальным значением t-score (и для лексем, и для словоформ) дают представление:

1)      о «общенаучных» (или «общелингвистических») устойчивых сочетаниях и составных слов (напр., таким образом, в качестве, в виде, в рамках, в частности),

2)      о типичных для научного текста конструкциях, напр., представляет собой,

3)      о типичных для данной коллекции предложно-падежных (напр., в корпусе) конструкциях,

4)      о списке терминологических сочетаний, общих для рассматриваемой коллекции (напр., русский язык, корпус текстов).

Ср. биграммы для лексем: В КОРПУС, РУССКИЙ ЯЗЫК, И Т (из и т.д.), КОРПУС ТЕКСТ, А ТАКЖЕ, И В, В ТЕКСТ, ТАКОЙ ОБРАЗ, В ТОТ, МОЧЬ БЫТЬ, ОДИН ИЗ, В ЭТОТ, ТАК И, ПРИ ЭТО, ТОТ ЖЕ, НА ОСНОВА, НЕ ТОЛЬКО, СЛОВО В; для словоформ: и т (из и т.д.), может быть, а также, русского языка, в том, в корпусе, так и, не только, таким образом, и др, точки зрения, на основе, но и, могут быть, в тексте, корпуса текстов.

Как уже было сказано, несмотря на то, что обычно мера t-score считается малопригодной для поиска терминологических словосочетаний, она оказывается полезна при решении задачи о выделении тех единиц, которые характеризуют все (или подавляющее большинство) текстов коллекции. Используя минимальный морфологический фильтр из списков t-score-коллокаций, можно выделить те сочетания, которые могут рассматриваться как терминологические. Таким образом был получен список терминологических биграмм, общих для всех (или подавляющего большинства) текстов коллекции (см. табл. 2).

Таблица 2. Терминологические биграммы (t-score), выделяющиеся и для лексем, и для словоформ

п.п.

лексемные биграммы

п.п.

словоформные биграммы

2

русский

язык

4

русского

языка

4

корпус

текст

66

корпус

текстов

21

часть

речь

22

корпуса

текстов

24

национальный

корпус

54

части

речи

29

английский

язык

42

английского

языка

55

машинный

перевод

46

машинного

перевода

63

предметный

область

74

предметной

области

79

лексический

единица

77

лексических

единиц

Таким образом, наши выводы согласуются с традиционной тематикой корпусных исследований, что отражено в наборе t-score-терминологических сочетаний (см. табл. 2):

     они чаще всего ориентированы на русский или английский язык,

     в качестве материала (и/или объекта исследования) выступают корпуса,

     лексическим единицам (частям речи) уделяется особое внимание,

     многие работы ориентированы на решение вопросов машинного перевода.

 

С увеличением n (при переходе от биграмм к триграммам и далее) наблюдается увеличение числа пересечений между списками коллокаций, выделяемых с помощью обеих рассматриваемых мер (см. в качестве примера списки в таблице 3, различающиеся лишь порядковыми номерами («рангами») коллокаций).

Таблица 3. n-граммы (MI, t-score) с n=4, выделяющиеся  для словоформ

п.п.
MI

п.п.
t-score

n-граммы
n=4

1

6

национальный

корпус

русского

языка

2

3

национального

корпуса

русского

языка

3

9

одних

и

тех

же

4

1

в

то

же

время

5

4

в

связи

с

этим

6

8

одного

и

того

же

7

5

и

с

точки

зрения

8

2

в

том

числе

и

9

7

в

то

время

как

Увеличение n при выделении коллокаций научной коллекции приводило к получению осмысленных, но малоинформативных списков (в отличие от аналогичной процедуры на материале новостных текстов). Пока сложно сказать, насколько эта особенность связана с монотематичностью, единством стиля коллекции, а также ее небольшим объемом.

 

4. Заключение

Несмотря на то, что данное исследование можно считать сугубо предварительным, основные гипотезы на рассматриваемом материале подтвердились:

·         использование меры MI позволяет выделить «ключевые» неоднословные термины, которые характеризуют предметную область коллекции;

·         использование меры t-score позволяет выделить:

     «устойчивые сочетания» (производные служебные слова, дискурсивные слова),

     «устойчивые конструкции», где и те, и другие характеризуют стилистические особенности научных текстов,

     коллокации, общие для всех (или подавляющего большинства) текстов коллекции

Мы не ставили перед собой задачу создания практически востребованного метода извлечения терминов, пополнения базы данных или тестирования разных методик (см., напр., [Браславский, Соколов 2006]). На данном этапе нас интересовал вопрос о природе коллокаций и тех особенностях текстов, которые они отражают. Ведь автоматически получаемые списки коллокаций и последующий их ручной анализ являются для нас возможностью исследовать языковые и экстралингвистические характеристики специальных текстов (ср. [Герд 1996]. Дополнительную ценность, полагаем, это имеет для такой области лингвистического знания как корпусная лингвистика. Эта область является еще относительно новой: не до конца очерчены ее границы, она включает работы и по созданию, и по использованию корпусов. Так, даже терминология корпусной лингвистики может в значительной степени варьировать в зависимости от того, как определяются ее границы. С помощью предлагаемых методов можно определять тематические (терминологические) и стилевые особенности на разных тематических коллекциях.

 

Литература

Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текса // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая – 4 июня 2006 г.) / Под ред. Н.И. Лауфер, А. С. Нариньяни, В. П. Селегея. – М.: Изд-во РГГУ, 2006.

Герд А.С. Специальный текст как предмет прикладной лингвистики // Прикладное языкознание : учебник / отв. ред. А. С. Герд. – СПб. : Изд-во С.-Петерб. ун-та, 1996б. – С. 68-90.

Хохлова М.В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: Корпусные подходы. Под ред. А. Мустайоки, М.В. Копотева, Л.А. Бирюлина, Е.Ю. Протасовой. Хельсинки, 2008. С.343–357

Ягунова Е.В. Формальные и неформальные критерии вычленения ключевых слов из научных и новостных текстов // Материалы IV Международного конгресса исследователей русского языка «Русский язык: исторические судьбы и современность». М., 2010

Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов –  Сб. НТИ, Сер.2, №5. М., 2010

Stubbs M. Collocations and semantic profiles: on the case of the trouble with quantitative studies. Functions of language 2:11, 23-55, Benjamins, 1995.



[1] Пользуясь случаем, хотим поблагодарить кафедру «Математической лингвистики» филологического факультета СПбГУ и лично В.П. Захарова и О.А. Митрофанову за любезно предоставленную нам для работы коллекцию текстов.

[2] Пользуясь случаем, выражаем благодарность В.В. Бочарову и надеемся на дельнейшее плодотворное сотрудничество.