3.1. Контент-анализ
Один
из источников концепции Text Mining - контент-анализ. Понятие контент-анализа,
корни которого уходят в психологию и социологию, не имеет однозначного
определения:
-
Контент-анализ - это
методика объективного качественного и систематического изучения содержания
средств коммуникации - Д. Джери (J.J. Jerry), Дж. Джери (J. Jerry).
-
Контент-анализ - это
систематическая числовая обработка, оценка и интерпретация формы и содержания
информационного источника -Д. Мангейм
(D. Mangeim), Р. Рич (R. Rich).
-
Контент-анализ - это
качественно-количественный метод изучения документов, который характеризуется объективностью выводов и строгостью
процедуры и заключается в квантифицированной обработке
текста с дальнейшей интерпретацией результатов (В. Иванов).
-
Контент-анализ состоит в
нахождении в тексте определенных содержательных понятий (единиц анализа),
выявлении частоты их появления и соотношения с содержанием всего документа (Б.
Краснов).
Большинство
из приведенных определений конструктивны, но из-за различных начальных посылок
они порождают различные, а порой и противоречащие друг другу алгоритмы.
Принято
разделять методологии контент-анализа на две области:
качественную и количественную. Основа количественного контент-анализа
- частота появления в документах определенных характеристик содержания
(понятий, феноменов). Качественный контент-анализ
основан на самом факте присутствия или отсутствия в тексте одной или нескольких
характеристик содержания.