О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)

Глоссарий

 

 Автоматическое реферирование (от англ. Summarization) - автоматическое формирование краткого изложения исходного текстового материала либо путем выделения фрагментов информационного наполнения и последующего их соединения, либо методом генерации текста на основании выявления знаний из оригинала.

База данных реляционная - база данных, построенная на основе реляционной модели данных.

Весовой коэффициент (англ. - Weighting) - коэффициент, приписываемый лексической единице в документе и учитываемый для вычисления числового значения релевантности. Весовой коэффициент может зависеть от расположения лексической единицы в документе, абзаце, предложении. Кроме того, весовой коэффициент непосредственно зависит от смысла лексической единицы, ее соответствия тематике поисковой системы, частоты встречаемости в документе. Весовые коэффициенты могут приписываться лексическим единицам как в индексе информационно-поисковой системы, так и в запросах пользователя.

Гипертекст (от англ. Hypertext) - документы, содержащие связи с другими документами (или имеющие внутренние связи). Гипертекстовый документ представляет собой специальным образом размеченную текстовую информацию. При отображении гипертекстовых документов отдельные элементы текста могут служить ссылками на другие документы. Механизм ссылок, дополняющий текстовую информацию, является неотъемлемой частью гипертекста. Веб-страницы, как правило, представляют собой гипертекстовые документы написанные с использованием языка гипертекстовой разметки HTML.

Гиперсвязь, гиперссылка (англ. - Hyperlink) - связь между отдельными компонентами информации. Применяется для ссылок, сделанных внутри одного объекта на другой объект. Ссылка, как правило, делается от объекта, размещенного на HTML-странице, на другой объект, который может находиться на произвольном FTP или WWW-сервере.

ДНФ (дизъюнктивная нормальная форма) - нормальная форма в булевой логике, в которой булева формула имеет вид дизъюнкции нескольких конъюнктивных компонент (пропозициональных формул, являющихся конъюнкцией одного или более элементов). Известно, что любая булева формула может быть приведена к ДНФ.

Индекс ИПС (англ. – IRS Index) -  индекс информационно-поисковой системы представляет собой определенным образом организованную совокупность данных, где содержатся поисковые образы всех документов базы данных. Является основной составляющей архитектуры информационно-поисковой системы, обеспечивающей возможность оперативного поиска и доступа к информации.

Интернет, Сеть (Internet) - глобальная информационная сеть, части которой логически связаны единым адресным пространством, основанном на стеке протоколов TCP/IP. Интернет состоит из множества взаимосвязанных компьютерных сетей.

Информационное пространство (англ. - Information space) - совокупность информационных ресурсов, технологий их сопровождения и использования, информационных и телекоммуникационных систем, образующих информационную инфраструктуру.

ИПС, Информационно-поисковая система  (англ. - Information Retrieval System, IRS) - система, предназначенная для обеспечения поиска и отображения документов, представленных в базах данных. Ядром информационно-поисковой системы является поисковый механизм - программный модуль, который осуществляет поиск по запросу. ИПС, интегрированные с веб-технологиями, являются основой построения информационно-поисковых веб-серверов.

Ключевое слово (англ.  - Keyword):

1. Отдельный термин, используемый в запросах к информационно- поисковым системам.

2. Дескриптор, отдельное слово или словосочетание, используемое при ручном или автоматизированном индексировании документов перед погружением в ИПС.

Контент (от англ. Content) - содержание. Под "контентом" обычно понимают любое содержательное наполнение информационных ресурсов (например, веб-сайтов) - тексты, графику, мультимедиа.

Контент-анализ - метод получения выводов путем анализа содержания текстовой информации. Чаще всего реализуется как систематическая числовая обработка, оценка и интерпретация формы и содержания информационного источника.

Контент-мониторинг - систематическое, непрерывное во времени сканирование и контент-анализ информационных ресурсов.

Кэш (от англ. cache) - в подборка данных, дублирующих оригинальные значения, когда оригинальные данные труднодоступны из-за большого времени доступа или для вычисления. Кэш - это промежуточный буфер с быстрым доступом, который хранит в себе  информацию, которая может быть запрошена пользователем.

Латентно-семантический анализ (от англ. Latent Semantic Analysis,  LSA) - теория и метод для извлечения контекстно-зависимых значений слов при помощи статистической обработки больших наборов текстовых данных. Латентно-семантический анализ основывается на идее, что совокупность всех контекстов, в которых встречается и не встречается  терм, задает множество ограничений, которые в значительной степени позволяют определить похожесть смысловых значений термов между собой. В качестве исходной информации LSA использует матрицу «термы-на-документы», содержащую весовые значения  термов в документах.

Лемматизация (от англ. Lemmatization) - реконструкция основной формы изменяемых частей речи, приведение слов к исходной (канонической) форме - лемме. Если существительное - то к именительному падежу, если глагол - то к инфинитивной форме и т.д.

Метаданные «данные о данных» - описание состава данных, их структуры представления, места хранения и других признаков.

Метаинформация - информация о способах и методах переработки информации или о том, где найти информацию. Так, интернет-каталог представляет собой метаинформацию по отношению к информации, содержащейся на веб-сайтах.

Модель реляционная (от англ. Relation – отношение) -  логическая модель данных, описывающая:

-         структуры данных в виде наборов отношений;

-         теоретико-множественные операции над данными: объединение, пересечение, разность и декартово произведение;

-         специальные реляционные операции: селекция, проекция, соединение и деление;

-         специальные правила, обеспечивающие целостность данных.

Мультифрактал – множество содержащие в себе одновременно бесконечное число фрактальных множеств, характеризуется спектром фрактальных размерностей.

Онтология  - в рамках концепции Семантического веб - онтология определяет термины, с помощью которых можно описать предметную область. Попытка формализации некоторой области знаний с помощью концептуальной схемы. Обычно такая схема состоит из иерархической структуры данных, содержащей все релевантные классы объектов, их связи и правила, принятые в этой области.

Параметр порядка – величина отличительный признак фазы, в которой находится система, например неравная нулю a ферромагнитной фазе и равная в парамагнитной.

Поисковый механизм (англ. - Search Engine) - основной компонент любой информационно-поисковой системы. Программный модуль, осуществляющий поиск в базе данных по запросу (поисковому предписанию), заданному пользователем.

Полнота, охват (англ. - Recall) - отношение количества релевантных документов в отклике информационно-поисковой системы к  общему количеству  релевантных документов в исходном массиве.

Полнотекстовая поисковая система (англ. - Full-text search engine) - информационно-поисковая система, которая при составлении индекса охватывает все слова в тексте документа (иногда за исключением стоп-слов) и учитывает порядок их расположения по отношению друг к другу.

Профайл (от англ. profile – профиль) -  совокупность величин определяющих (базовых) параметров некоторого объекта или технологического процесса, описывающих и характеризующих этот объект или технологический процесс.

Ранжирование (от англ. Ranking) - упорядочение результатов поиска – отклика поисковой системы по некоторым критериям, например, по дате публикации документов или по релевантности.

Релевантность (от англ. Relevancy – соответствие) - мера того, насколько точно документ, найденный информационно-поисковой системой, отвечает запросу пользователя. Обычно выражается в числовой форме. Единых взглядов на это понятие нет. Далеко не всегда документ, отмеченный информационно-поисковой системой как наиболее релевантный по формальным признакам, будет таковым по мнению самого пользователя.

Реляционная модель данных - логическая модель данных, описывающая структурный аспект, аспект целостности и аспект обработки данных:

-         структурный аспект -  данные в базе данных представляют собой набор отношений;

-         аспект целостности - отношения отвечают определенным условиям целостности.  Реляционная модель поддерживает  ограничения целостности уровня типов данных, уровня отношения и уровня базы данных;

-         аспект обработки - реляционная модель  поддерживает операторы манипулирования отношениями - так называемую реляционную алгебру.

Семантический  веб (от англ. Semantic Web)  - проект консорциума W3C, в рамках которого предлагается способ сделать информацию в Сети более доступной, что, в свою очередь, позволит создавать интеллектуальное программное обеспечение, которое могло бы искать в WWW необходимые данные, выявляло их семантику, создавало перекрестные ссылки и использовало эти данные для решения практических задач. Одина из основных концепций Семантического веб – ориентация на формат XML.

Скейлинг – масштабирование, в частности, возможность представить функцию двух переменных как функцию одной.

Сниппет (от англ. Snippet – фрагмент, отрывок) - часть текста, отрывки веб-страницы, которая содержит слова поискового запроса, выводящегося поисковой системой в результатах поиска по самому этому запросу.

Спам (SPAM) - непрошенное рекламное сообщение, сетевой мусор, мусорная почта, рассылаемые по электронной почте в личные почтовые ящики или телеконференции. Рассылка спама считается нарушением этикета и правил применения компьютерных сетей.

Стемминг (от англ. Stemming) – выделение основы слова - обеспечивает возможность поиска слова не только в строго заданном виде, но и во всех его морфологических формах. Например, слову "программа", будут соответствовать: "программе", "программный" и т.д.

 Стоп-слова (англ. - Stop words) - слова, исключаемые из индекса системы и/или запроса пользователя. Отдельные информационно-поисковые системы для сокращения размеров индекса и увеличения производительности не включают в индекс часто встречаемые на веб-страницах слова. К стоп-словам обычно относятся предлоги, междометия и другие сочетания, которые не несут содержательного смысла.

СУБД (англ. - DBMS) - система управления базами данных - комплекс программных и лингвистических средств общего или специального назначения, реализующий поддержку создания баз данных, централизованного управления и организации доступа к ним различных пользователей в условиях принятой технологии обработки данных.

СУБД реляционная - система управления реляционной базой данных, содержащая:

-                    командный язык;

-                    язык программирования с ориентацией на обработку таблиц;

-                    интерпретирующую и/или компилирующую систему;

-                    пользовательскую оболочку.

Тег (от англ. tag):

1. Специальная последовательность знаков в размеченном тексте, указывающая на структуру или формат его представления.

2. Команда и знак языка разметки гипертекста. Знаки разметки употребляются парами, обозначая начало и конец области действия тега.

Текстовый корпус  (от англ. Text corpus)  - массив текстов, собранных в соответствии с определенными принципами, размеченных по определенному стандарту и обеспеченных специализированной поисковой системой. В некоторых случаях текстовым корпусом первого порядка называют произвольное  собрание текстов, объединенных каким-то общим признаком. Разработкой, созданием и использованием текстовых (лингвистических) корпусов занимается специальный раздел языкознания – корпусная лингвистика.

Терм (от англ. Term) – в контексте данной книги – слово или устойчивое словосочетание. В математической логике понятие «терм» широко используется в качестве «символьного выражения».

Фазовые переходы переход системы из одной фазы в другую при изменении внешних условий, например, в физике, переход при повышении температуры железа, кобальта, никеля,… из ферромагнитной фазы в парамагнитную. Фазовый переход происходит при определенной, т.н. критической температуре. Согласно П. Эренфесту различаю фазовые переходы  1-го, 2-го и т.д. родов.

Фрактал (от лат. Fractus – дробленый, состоящий из фрагментов) – бесконечно самоподобный (точно или приближенно) объект (множество), каждая часть которого повторяется при уменьшении масштаба. Более точно – размерность Хаусдорфа-Безиковича такого объекта должна быть нецелой, поэтому фрактал самоподобен, обратное не обязательно. Возможно и такое определение: фрактал - самоподобное множество нецелой размерности.

Энтропия – в физике - мера вероятности осуществления какого-либо макроскопического состояния; в теории информации - мера неопределенности какого-либо опыта.

ARPANET (Advanced Research Projects Agency Network, Сеть Управления Перспективных Исследований) - глобальная исследовательская сеть с коммутацией пакетов, предшественница Интернет. Основана в 1969 году под эгидой Агентства перспективных исследований Министерства обороны США (Defense Department's Advanced Projects Research Agency). В сети ARPANET впервые были реализованы многие из сетевых принципов, которые используются сегодня. Завершила свое существование в 1990 году.

Data Mining (глубинный анализ данных):

1. Data mining - это процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности (G. Piatetsky-Shapiro, GTE Labs)

2. Data mining - это процесс выделения (selecting), исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе (SAS Institute).

Deep Web (глубинный, скрытый, невидимый веб) - кроме видимой для поисковых систем части WWW-пространства существует огромное количество страниц, которые ими не охватываются. Как правило, эти веб-страницы доступны в Интернет, однако выйти на них невозможно, если не знать точного адреса. В состав ресурсов Deep Web входят и динамически формируемые веб-страницы, содержание которых хранится в базах данных и доступно лишь по запросам пользователей.

DNS (Domain Name System ) - система доменных имен — распределенная система (распределенная база данных), позволяющая преобразовывать символьные имена доменов в IP-адреса в сетях TCP/IP. Кроме того DNS может хранить и обрабатывать обратные запросы определения имени хоста по его IP адресу.

HTML (HyperText Markup Language) - язык гипертекстовой разметки - стандартный язык для описания содержания и структуры гипертекстовых документов. HTML-документы представляют собой текстовые файлы со встроенными специальными командами (разметкой), которые, как правило, отмечают определенную область текста. HTML состоит из независящих от программного обеспечения и аппаратной платформы команд, описывающих структуру гипертекстовых документов. HTML является прикладной разновидностью языка SGML.

HTTP (HyperText Transport Protocol)  - протокол передачи гипертекста – протокол, предназначенный для общения клиента и сервера в WWW. Обеспечивает передачу веб-страниц по Интернет.

MARC - Проект МАРК - проект, начатый в 1966 году 16 библиотеками США для разработки стандарта формата обмена библиографическими записями в электронном виде. В 1972 году модернизированный стандарт МАРК-2 получил международное признание.

OSI (Open Systems Interconnection Reference Model) - абстрактная модель для сетевых коммуникаций и разработки сетевых протоколов. Представляет семиуровневый подход к построению архитектуры сети. Каждый уровень обслуживает свою часть процесса взаимодействия и может взаимодействовать только со своими соседями и выполнять отведенные только ему функции.

OWL (Web Ontology Language) - язык веб-онтологий для Семантического веб на основе стандартов XML/RDF. Язык веб-онтологий OWL предназначен для описания классов веб-документов и приложений, а также отношений между этими классами. В основу языка  положена  модель данных «объект – свойство».

 P2P  (Peer-to-peer) – пиринговые сети, основанные на равноправии участников. В таких сетях отсутствуют выделенные серверы, а каждый узел (peer) является как клиентом, так и сервером. В отличие от сетей с архитектурой «клиент-сервер», такая организация  сети позволяет сохранять работоспособность сети при произвольном количестве и сочетании узлов.

RDF (Resource Description Framework) -  разработанная консорциумом W3C модель для описания ресурсов. В основе этой модели лежит идея об использовании специального вида утверждений, соответствующих ресурсам. Каждое утверждение имеет вид «субъект - предикат - объект», называемое  триплетом.

RFC (Request for Comments) - запрос для комментариев - совокупность публикуемых документов, в которых излагаются стандарты, проекты стандартов и принципиально согласованные идеи по деятельности Интернет. Первый RFC вышел в 1969 году. Общее количество RFC на сегодня превышает пять тысяч.

SQL (Structured Query Language) - язык структурированных запросов - язык системы управления базой данных, использующий соответствующие команды и синтаксис для управления процессом взаимодействия и обработки данных в базе данных.

TCP/IP  (Transmission Control Protocol/Internet Protocol) – два основных протокола, обеспечивающих (вместе с  другими протоколами) функционирование и работу в сетях Интернет в режиме коммутации пакетов. Используются как правило совместно:

-         TCP (Transmission Control Protocol) - протокол, определяющий порядок разделения данных на дискретные пакеты и контролирующий передачу и целостность передаваемых данных;

-         IP (Internet Protocol) - описывает формат пакета данных, передаваемых в сети, а также порядок присвоения и поддержки адресов абонентов сети.

Text Mining - глубинный анализ текста - это алгоритмическое выявление прежде не известных связей и корреляций в уже имеющихся текстовых данных. Важная компонента технолгоии Text Mining связана с извлечением из текста его характерных элементов или свойств, которые могут использоваться в качестве метаданных, ключевых слов, аннотаций. Другая важная задача состоит в отнесении документа к некоторым категориям из заданной схемы их систематизации. Text Mining также обеспечивает новый уровень семантического поиска документов.

W3C - World Wide Web Consortium  - Консорциум W3C - международный индустриальный консорциум, образованный в 1994 г. первоначально в рамках CERN при поддержке DARPA и Европейской комиссии. В настоящее время W3C поддерживается совместно Лабораторией информатики Массачусетского технологического института (США), INRIA (Франция) и университетом Кейо (Япония). Целью создания W3C является разработка общих протоколов, позволяющих расширить доступность и эффективность ресурсов World Wide Web, а также руководство эволюцией системы протоколов.

WAIS (Wide Area Information Service)  - служба поиска распределенной информации:

1. WAIS-протокол Интернет, позволяющий осуществлять поиск информации в Интернет в соответствии с библиографическим стандартом Z39.50.

2. Информационно-поисковая система, построенная в соответствии с WAIS-протоколом. 

XML (Extensible Markup Language) – Расширяемый Язык Разметки  - стандарт языка разметки, принятый консорциумом W3C в феврале 1998 г. Главные его особенности заключаются в возможности расширения набора тегов, используемых для разметки документов, возможности задания структуры документа, правильность которой верифицируется браузером, в отделении средств разметки по содержанию от разметки, ориентированной на представление документов.