Как методом контент-анализа определить ключевые аспекты определённого массива документов

We use cookies. Read the Privacy and Cookie Policy

Контент-анализ представляет собой метод сбора количественных данных на основе обработки текстов, касающихся исследуемого процесса или явления. С помощью данного метода можно определить преобладающие настроения СМИ, рейтинг лидеров, фирм, организаций, выявить отношение авторов текстов к определённым лицам, событиям и так далее.

Одним из этапов контент-анализа является кодировка всего массива исследуемых текстов. На этом этапе осуществляется процесс квантификации, то есть перевода в цифровое выражение всей совокупности исследуемых текстов. После этого производится статистическая обработка полученных количественных данных. Выявление ключевых аспектов текстов — это простейший пример такой работы.

Для выявления ключевых слов можно воспользоваться любым современным пакетов офисных программ: FreeOffice, LibreOffice, Microsoft Office, OpenOffice.org и т. п.

Последовательность действий такова:

1). Сохраним весь массив документов в виде одного текстового файла.

2). При помощи текстового редактора все знаки препинания в получившемся тексте, а также пробелы, знаки абзаца и все специальные символы заменим на знаки переноса строки (этот знак есть в наборе специальных символов и во многих офисных пакетах обозначается ^l).

3). Затем два разрыва строки подряд (^l^l) заменим на один разрыв строки (^l). Эту операцию повторим несколько раз, до тех пор, пока двойные разрывы строки в тексте не закончатся.

4). Полученный текст выделим целиком, скопируем в буфер обмена и вставим в таблицу в файл, созданный в редакторе таблиц.

5). Столбец А таблицы отсортируем по возрастанию. Получим список слов, упорядоченный по алфавиту.

6). В ячейку В1 введём значение 1, в ячейку В2 — следующую формулу:

«=IF (A2=A1;B1+1;1)».

Синтаксис этой формулы может незначительно отличаться в разных программах. Например, в русскоязычных версиях вместо оператора IF может использоваться оператор ЕСЛИ.

6). Формулу из ячейки В2 скопируем в буфер обмена и вставим во все последующие ячейки столбца В. В итоге в каждой строке в столбце В получим порядковый номер употребления соответствующего слова в массиве документов.

7). В ячейку С1 введём формулу «=IF (A2=A1;0;1)».

8). Формулу из ячейки С1 скопируем в буфер обмена и вставим во все остальные ячейки столбца С. В итоге в столбце С единицы будут стоять только в строках с максимальным порядковым номером употребления слова в массиве документов.

9). Полученную таблицу сохраним в формате «Текстовые файлы с разделителями табуляции» и закроем.

10). Далее вновь откроем в редакторе таблиц только что сохранённый текстовый файл с разделителями табуляции. Данные в нём отсортируем за одну операцию сортировки сначала по значению столбца С (по убыванию), затем по значению столбца В (по убыванию). Мы получим таблицу, в верхней части которой окажется список слов, отсортированный в порядке убывания количества их употреблений в исследуемом массиве документов, а в нижней (ниже последней строки, в столбце С которой содержится значение «1?) — ненужные нам «отходы производства». Нижнюю часть таблицы можно удалить.

11). Нам необходимо выявить группу слов, несущих смысловую нагрузку, встречающихся часто, но не так часто, как группа слов, наиболее употребляемых в исследуемом массиве документов (в которой, скорее всего, будут преобладать предлоги и союзы). Такие несущие смысловую нагрузку слова можно признать ключевыми понятиями исследуемого массива документов. Эти слова определяют ключевые аспекты темы, которой посвящены документы данного массива.