О сервисе WebGround

Ваша тема


Новости сайта

Литература

обложка книгиИнтернетика. Навигация в сложных сетях: модели и алгоритмы
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистикаАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика (pdf)
Ягунова Е.В., Макарова О.Е., Антонова А.Ю., Соловьев А.Н. Разные методы компрессии в исследовании понимания новостного текстаРазные методы компрессии в исследовании понимания новостного текста (pdf)
Крылова И.В, Пивоварова Л.М., Савина А.В., Ягунова Е.В. Исследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистовИсследование новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов (pdf)
Ягунова Е.В. Исследование перцептивной устойчивости фонем как элементов речевой цепиИсследование перцептивной устойчивости фонем как элементов речевой цепи (pdf)
Ягунова Е.В. Вариативность структуры нарратива и разнообразие стратегий пониманияВариативность структуры нарратива и разнообразие стратегий понимания (pdf)
Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. ГоголяЭкспериментально-вычислительные исследования художественной прозы Н.В. Гоголя (pdf)
Ягунова Е.В. Вариативность стратегий восприятия звучащего текстаВариативность стратегий восприятия звучащего текста (pdf)
Ягунова Е.В. Спонтанный нарратив у детей и у взрослыхСпонтанный нарратив у детей и у взрослых (pdf)
Ягунова Е.В. Исследование избыточности русского звучащего текстаИсследование избыточности русского звучащего текста (pdf)
Ягунова Е.В. Фонетические признаки опорных сегментов и восприятие русского текстаФонетические признаки опорных сегментов и восприятие русского текста (pdf)
Ягунова Е.В. Коммуникативная и смысловая структура текста и его восприятиеКоммуникативная и смысловая структура текста и его восприятие (pdf)
Ягунова Е.В. Где скрывается смысл бессмысленного текста?Где скрывается смысл бессмысленного текста? (pdf)
Ягунова Е.В. Эксперимент в психолингвистике: Конспекты лекций и методические рекомендацииЭксперимент в психолингвистике: Конспекты лекций и методические рекомендации (pdf)
Ягунова Е.В. Теория речевой коммуникацииТеория речевой коммуникации (pdf)
Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемостиОпределение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости (pdf)
Ягунова Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текстаЭксперимент и вычисления в анализе ключевых слов художественного текста (pdf)
Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. ГоголяКлючевые слова в исследовании текстов Н.В. Гоголя (pdf)
Пивоварова Л.М., Ягунова Е.В. Информационная структура научного текста. Текст в контексте коллекцииИнформационная структура научного текста. Текст в контексте коллекции (pdf)
Савина А.Н., Ягунова Е.В. Исследование коллокаций с помощью экспериментов с информантамиИсследование коллокаций с помощью экспериментов с информантами (pdf)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциямОт коллокаций к конструкциям (pdf)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстовИзвлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (pdf)
Julia Kiseleva. Grouping Web Users based on Query LogGrouping Web Users based on Query Log (pdf)
Julia_Kiseleva_Unsupervised_Query_Segmentation_Using_Click_Data_and_Dictionaries_Information.pdfUnsupervised Query Segmentation Using Click Data and Dictionaries Information (pdf)
Четыре лекции о методе
Начала предметного анализа методов (на примере метода Ф.Бэкона)
Вариативность стратегий восприятия звучащего текста
Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения
Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов
Войтишек А. Повторы. Лирические рефреныПовторы. Лирические рефрены (pdf)
Войтишек А. Новое. Лирические рефреныНовое. Лирические рефрены (pdf)
Войтишек А. Всё об одном и том жеВсё об одном и том же. 500 лирических рефренов к 50-летию (pdf)
Войтишек А. Тысяча-часть-1Тысяча-часть-1 (pdf)
Войтишек А. Тысяча-часть-2Тысяча-часть-2 (pdf)
Войтишек А. АлфавитАлфавит (pdf)



1.2. Всемирная паутина - World Wide Web

        

World Wide Web (или сокращенно, веб) представляет  глобальное информационное пространство, основанное на физической инфраструктуре сети Интернет и протоколе передачи данных HTTP.

World Wide Web объединяет миллионы веб-серверов, подключенных к Интернет. В начале  существования World Wide Web  на небольшом количестве веб-сайтов публиковалась информация отдельных авторов для относительно большого количества посетителей. Сегодня ситуация резко изменилась. Сами посетители  веб-сайтов  активно участвуют в создании контента, что привело к резкому росту объемов информации и динамики веб.

Сегодня  в веб уже существует свободно доступная для пользователей  информационная база такого объема, который ранее трудно было представить. Более того, объемы этой базы превышают на порядки все то, что было доступно десятилетие назад. В августе 2005 года компания Yahoo объявила о том, что проиндексировала около 20 млрд. документов. Достижение компании Google в 2004 году составляло менее 10 млрд. документов, т.е. за один год количество информации. По данным службы Web Server Survey, в авпреле 2008 года количество  веб-серверов превысило 166 млн.

Для просмотра информации, полученной от веб-серверов, на компьютерах полязователей используются специальные программы - веб-браузеры, основная функция которых - отображение гипертекста, являющегося основным методом представления информации в веб.

Традиционно под гипертекстом понимается принцип организации текстовых  массивов, при котором отдельные информационные элементы связаны между собой ассоциативными отношениями (гиперссылками), обеспечивающими быстрый и удобный поиск необходимой информации и/или просмотр взаимозависимых данных.

Гипертекст, появившийся как форма гиперсвязи между отдельными фрагментами текста, настолько же древнее понятие, как и письменность. Библия, с ее сложным употреблением аннотаций и комментариев, - один из древнейших примеров гипертекста. Словари и энциклопедии также могут рассматриваться как сети из текстовых блоков, соединенных ссылками.

Основные вехи развития современных гипертекстовых технологий следующие:

         - в 1945 году Ванневер Буш (Vannevar Bush) создал первую фотоэлектрическую память и приспособление Memex (memory extension), которая представляет собой справочник, реализованный с помощью гиперссылок в пределах документа. Тед Нельсон (Ted Nelson) в 1965 году ввел термин "гипертекст" и создал гипертекстовую систему Xanadu с двусторонними гиперсвязями;

         - в 1980 году Тим Бернерс-Ли (T. Berners-Lee), консультант CERN (Европейская организация ядерных исследований) написал программу, которая разрешает создавать и пересматривать гипертекст, реализующий двунаправленные связи между документами из коллекции;

         - в 1990 году для поддержки документации, которая циркулирует в CERN Бернерс-Ли начал работу над графическим интерфейсом пользователя (GUI, Graphical User Interface) для гипертекста. Эта программа была названа "WorldWideWeb". До 1992 года уже были созданные такие GUI как Erwise и Viola.

  - в феврале 1993 года М. Андрессен (M. Anderssen) из NCSA (Национальный Центр Суперкомпьютерных приложений США, www.ncsa.uiuc.edu) закончил первую версию программы визуализации гипертекста Mosaic для популярного графического интерфейса Xwindow System под UNIX. Одновременно CERN развивал и улучшал HTML - язык гипертекстовой разметки текстов и HTTP - протокол передачи гипертекста, а также сервер обработки гипертекстовых документов - CERN HTTPD.

Язык HTML (Hypertext Markup Language) представляет собой стандартный язык разметки документов в Интернет, при помощи которого  создаются все веб-страницы.

HTML вначале создавался как язык для обмена научной и технической документацией, пригодный для использования людьми, не являющимися специалистами в области верстки. Прародителем HTML является язык  SGML (стандартный обобщенный язык разметки), язык  HTML является подмножеством SGML, т.е. удовлетворяет международному стандарту ISO 8879.

Язык HTML позволяет размечать текст для форматированного отображения, а также для  реализации некоторых элементов интерактивности. Текст с HTML-разметкой интерпретируется специальными программами - браузерами и отображается в виде документа, удобного для восприятия человеком. Браузеры  предоставляют пользователю  интерфейс для запроса веб-страниц, их просмотра и, при необходимости, отправки введенных пользователем данных на сервер. Наиболее популярными на сегодня браузерами являются Internet Explorer, Firefox, Opera и Safari.

Последней актуальной версией  является  HTML 4.01, принятый в 1999 году. В 2000 г. был принят международный стандарт  ISO/IEC 15445:2000 (так называемый «ISO HTML», основаный на HTML 4.01 Strict).

В настоящее время  Консорциумом W3C разрабатывается пятая версия языка HTML. Черновой вариант спецификации языка появился в Интернете 20 ноября 2007. Параллельно ведётся работа по дальнейшему развитию HTML под названием XHTML (от англ. eXtensible HTML), который, в отличие от предшественника, базирующегося на SGML, основан на XML и в  2000 году был одобрен в качестве Рекомендаций W3C.

Для передачи в сети Интернет гипертекстовой информации используется протокол HTTP (HyperText Transfer Protocol), который вначале использовался исключительно для передачи HTML-документов. В настоящее время с помощью HTTP можно передавать любую информацию, в том числе изображения, звук, видео а также просто абстрактные файлы.

Протокол HTTP определяет простое взаимодействие вида запрос-ответ.  Каждое HTTP-взаимодействие состоит из запроса, посылаемого от клиента серверу, и следующего за ним ответа от сервера клиенту. HTTP-запрос состоит из нескольких частей: метода, указывающего на действие (GET, POST, HEAD, PUT), адреса ресурса – его унифицированного указателя (Uniform Resource Locator, URL),  а также другой информации, например, такой как тип требуемого документа, аутентификация и разрешение на оплату. URL – это схема указания местонахождения ресурсов в Интернет, которая состоит из трех частей:

-         схемы, указывающей название протокола, используемого для доступа к ресурсу (например, ftp);

-         адреса сервера, задающего сетевое имя компьютера, на котором ресурс расположен;

-         точного адреса объекта, задающего полный путь и имя запрашиваемого объекта на сервере.

Для  протокола HTTP формат записи URL имеет вид:

http://[user[:passwd@]host[:port][/path]

где  host - имя компьютера в Интернет или его IP адрес; :port - номер TCP порта для доступа к сервису, если сервер настроен на использование порта, отличного от принятого по умолчанию;  path - полный путь и имя запрашиваемого объекта; user - пользователь; passwd - пароль.

На рис. 2 приведена упрощенная схема взаимодействия по протоколу HTTP.

После получения запроса от компьютера пользователя (клиента) сервер выполняет его синтаксический разбор, а затем необходимые действия, определяемые указанным методом. После этого сервер отправляет клиенту ответ, состоящий из строки состояния, указывающей на результат обработки запроса, например, успешно ли он обработан, информации о типе возвращаемого объекта и запрашиваемой информации, а также файл или результаты, сгенерированные серверным приложением.

Рис. 2. Схема взаимодействия  клиента и сервера по протоколу HTML

 

В первых версиях протокола HTTP соединение между клиентом  и сервером осуществлялось только в промежутке между посылкой запроса и ответом сервера. Сразу после отправки ответа сервер закрывал соединение, что давало ему возможность продолжить обработку ждущих запросов от других клиентов. HTTP называют "протоколом без запоминания состояния", поскольку он не поддерживал концепцию сеанса связи, обеспечивая лишь  доставку запрошенного документа.

В современной версии протокола HTTP (известной как HTTP 1.1, HTTP с устойчивым соединением)  TCP-соединение между двумя последовательными операциями остается открытым. Этот метод, называемый "устойчивым соединением" (permanent connection), использует одно и то же TCP-соединение для обслуживания множества HTTP-запросов, при этом исключаются расходы на открытие и закрытие других соединений.  Еще одной особенностью протокола HTTP 1.1, влияющей на производительность, является конвейерная обработка запросов, которая позволяет послать сразу много запросов, не ожидая ответа на каждый из них. То есть клиент отправляет множество запросов через TCP-соединение до того, как получит ответ на свои предыдущие запросы.

Таким образом, главными этапами, из которых состоит HTTP-взаимодействие, являются:

-         установка соответствия между именем сервера и IP-адресом (с помощью DNS-сервера);

-         установка TCP-соединения с сервером;

-         передача запроса URL;

-         получение ответа (HTML-текста или мультимедиа);

-         закрытие TCP/IP-соединения.

Главный недостаток  HTML-технологий заключается в том, что HTML был  изначально предназначен прежде всего для визуализации данных,  исключительно для структурирования содержания сайтов. Несмотря на то, что в последнее время для отображения данных в основном используются специальные средства, расширяющие возможности HTML, в частности, каскадные таблицы стилей CSS (Cascading Style Sheets),  он по-прежнему остается неудобным для автоматической обработки информации, в том числе, для организации поиска. То есть, WWW ориентирован на показ пользователям отдельных сайтов и плохо приспособлен для автоматизированного сбора информации, ее классификации и аналитической обработки. Сегодня представление информации на разных сайтах существенным образом отличается по оформлению и расположению, что усложняет автоматическую обработку.

Так, при необходимости обмена информацией между несколькими веб-сайтами, всегда возникает задача  унифицированного представления контента. В противном случае изменение HTML-оформления одного сайта приведет к необходимости одновременной модификации программного обеспечения на всех сайтах, которые принимают его информацию. Аналогичная ситуация возникает при необходимости импортировать информацию на один сайт с нескольких других. Изменение оформления на каждом из сайтов-источников информации будет всегда приводить к необходимости модификации соответствующего программного кода на целевом сайте. Поэтому в настоящее время обновления сайтов предоставляются не в HTML, а в диалектах формата XML, предназначенных для обмена данными и их интеграции.