Как методом контент-анализа определить ключевые аспекты определённого массива документов
Контент-анализ представляет собой метод сбора количественных данных на основе обработки текстов, касающихся исследуемого процесса или явления. С помощью данного метода можно определить преобладающие настроения СМИ, рейтинг лидеров, фирм, организаций, выявить отношение авторов текстов к определённым лицам, событиям и так далее.
Одним из этапов контент-анализа является кодировка всего массива исследуемых текстов. На этом этапе осуществляется процесс квантификации, то есть перевода в цифровое выражение всей совокупности исследуемых текстов. После этого производится статистическая обработка полученных количественных данных. Выявление ключевых аспектов текстов — это простейший пример такой работы.
Для выявления ключевых слов можно воспользоваться любым современным пакетов офисных программ: FreeOffice, LibreOffice, Microsoft Office, OpenOffice.org и т. п.
Последовательность действий такова:
1). Сохраним весь массив документов в виде одного текстового файла.
2). При помощи текстового редактора все знаки препинания в получившемся тексте, а также пробелы, знаки абзаца и все специальные символы заменим на знаки переноса строки (этот знак есть в наборе специальных символов и во многих офисных пакетах обозначается ^l).
3). Затем два разрыва строки подряд (^l^l) заменим на один разрыв строки (^l). Эту операцию повторим несколько раз, до тех пор, пока двойные разрывы строки в тексте не закончатся.
4). Полученный текст выделим целиком, скопируем в буфер обмена и вставим в таблицу в файл, созданный в редакторе таблиц.
5). Столбец А таблицы отсортируем по возрастанию. Получим список слов, упорядоченный по алфавиту.
6). В ячейку В1 введём значение 1, в ячейку В2 — следующую формулу:
«=IF (A2=A1;B1+1;1)».
Синтаксис этой формулы может незначительно отличаться в разных программах. Например, в русскоязычных версиях вместо оператора IF может использоваться оператор ЕСЛИ.
6). Формулу из ячейки В2 скопируем в буфер обмена и вставим во все последующие ячейки столбца В. В итоге в каждой строке в столбце В получим порядковый номер употребления соответствующего слова в массиве документов.
7). В ячейку С1 введём формулу «=IF (A2=A1;0;1)».
8). Формулу из ячейки С1 скопируем в буфер обмена и вставим во все остальные ячейки столбца С. В итоге в столбце С единицы будут стоять только в строках с максимальным порядковым номером употребления слова в массиве документов.
9). Полученную таблицу сохраним в формате «Текстовые файлы с разделителями табуляции» и закроем.
10). Далее вновь откроем в редакторе таблиц только что сохранённый текстовый файл с разделителями табуляции. Данные в нём отсортируем за одну операцию сортировки сначала по значению столбца С (по убыванию), затем по значению столбца В (по убыванию). Мы получим таблицу, в верхней части которой окажется список слов, отсортированный в порядке убывания количества их употреблений в исследуемом массиве документов, а в нижней (ниже последней строки, в столбце С которой содержится значение «1?) — ненужные нам «отходы производства». Нижнюю часть таблицы можно удалить.
11). Нам необходимо выявить группу слов, несущих смысловую нагрузку, встречающихся часто, но не так часто, как группа слов, наиболее употребляемых в исследуемом массиве документов (в которой, скорее всего, будут преобладать предлоги и союзы). Такие несущие смысловую нагрузку слова можно признать ключевыми понятиями исследуемого массива документов. Эти слова определяют ключевые аспекты темы, которой посвящены документы данного массива.