3.3. Реализации систем
с элементами Text Mining
В настоящее время существует множество систем глубинного анализа текстов,
как встроенных в другие, более комплексные системы, так и автономных. В
частности, корпорация IBM (www.ibm.com) создала
систему Intelligent Miner for Text, представляющую
собой набор утилит, реализующих функции Text Mining: -
Language Identification Tool - утилита
определения языка, на котором составлен документ. -
Categorisation Tool - утилита классификации - автоматического отнесения
текста к некоторой категории. -
Clusterisation Tool - утилита кластеризации - разбиения большого множества
документов на группы по близости стиля, формы, различных частотных
характеристик ключевых слов. -
Feature Extraction Tool - утилита
определения нового - выявление в документе новых термов, таких как собственные
имена, названия, сокращения, на основе анализа заданного заранее словаря. -
Annotation Tool - утилита "выявления содержания" текстов и
составления рефератов - аннотаций. Другая известная система PolyAnalyst
компании Мегапьютер Интеллидженс (www.megaputer.com) может применяться для автоматизированного
анализа числовых и текстовых баз данных с целью выявления прежде неизвестных,
нетривиальных, полезных и доступных пониманию закономерностей. В состав PolyAnalyst входит система TextAnalyst,
которая позволяет решать такие задачи Text Mining: построение
семантической сети для больших текстов, подготовка резюме текста, поиск по
тексту, автоматическая классификация и кластеризация текстов. Система компании SAS (www.sas.com) содержит компонент SAS Text Miner, который
позволяет работать с текстовыми документами в различных форматах из баз данных,
файловых систем и веб, а также агрегировать текстовую информацию со
структурированными данными. Средства Text Mining
сегодня являются неотъемлемой частью продуктов компании Oracle (www.oracle.com) . Основной
задачей, на решение которой нацелены средства Oracle Text, является задача
поиска документов по их содержанию. Oracle Text обеспечивает проведение
тематического анализа текстов на английском языке. В ходе обработки текст
каждого документа подвергается процедурам лингвистического и статистического
анализа, в результате чего определяются его ключевые темы и строятся
тематическое, а также общее резюме - реферат. | ||