Применение частотного анализа текстов СМИ для оптимизации процесса коммуникации

Скачать статью
Шумилина Т.В.

кандидат филологических наук, старший научный сотрудник кафедры социологии массовых коммуникаций факультета журналистики МГУ имени М. В. Ломоносова, г. Москва, Россия

e-mail: Tatyanshumilin@yandex.ru

Раздел: Теория журналистики и СМИ

Тексты СМИ проходят через каналы массовой коммуникации. Содержащаяся в текстах потенциальная информация, дойдя до потребителя (аудитории), превращается в принятую информацию. Этот процесс будет тем более эффективным, чем больше тексты будут обладать качествами, обеспечивающими их оптимальное прохождение через каналы массовой коммуникации и успешное преобразование информации в процессе коммуникации. Для того, чтобы внести коррективы в тексты и повысить эффективность их использования, можно воспользоваться программами частотного анализа текстов, размещенными в сети Интернет. Эти программы позволяют, применяя автоматические частотные анализаторы, оперативно получить информацию о структуре, лингвистических особенностях, доступности для аудитории и других качествах текстов, оптимизировать процесс коммуникации.

Ключевые слова: тексты СМИ, каналы коммуникации, коммуникативный процесс, оптимизация, частотный анализ

Введение1

Разрабатывая вопросы теории журналистики, один из крупней­ших теоретиков журналистики Е.П. Прохоров постоянно возвра­щался к постановке и поиску решения задачи повышения эффективности журналистики, совершенствования ее воздействия на аудиторию, основным смыслом которого Е.П. Прохоров считал увеличение информированности аудитории. Он утверждал: «Соз­дание текста произведения в расчете на повышение информиро­ванности аудитории — основа деятельности журналиста. Причем работа над текстом — это не различные акты творчества, следую­щие один за другим (сначала накопление знаний о жизни, затем их оформление и, наконец, отделка с ориентацией на аудиторию), а единый процесс, в котором семантические, синтактические и прагматические проблемы решаются в комплексе — одновременно и взаимосвязанно. В этом процессе прагматический аспект твор­чества (забота об аудитории, о ее информированности) является центральным» (Прохоров, 2007: 46). Проблема эффективности деятельности СМИ, в том числе взаимодействие текста с аудито­рией, является предметом рассмотрения многих исследователей СМИ в различных аспектах. Так, В.А. Сидоров отмечает: «...жур­налистский текст, с одной стороны, является конечным продук­том массового информационного производства, с другой — высту­пает в качестве промежуточного результата для дальнейшего его усвоения общественным сознанием. Все это подразумевает поста­новку ряда вопросов о степени полезности продукции потребите­лям, мере ее доступности, оперативности, точности, достовер­ности — об эффективности познания журналистом социальной реальности и превращения нового знания в журналистский текст. В целом это выводит нас на проблему оптимизации функционирова­ния СМИ» (Сидоров, 2004: 102).

В этой статье проблема оптимизации функционирования СМИ решается с помощью частотного анализа текстов СМИ, проходя­щих через каналы массовой коммуникации. При этом все тексты, публикуемые в СМИ (созданные не только журналистами), анали­зируются как тексты СМИ, поскольку подчиняются общим зако­номерностям функционирования, в данном случае на этапе дви­жения текстов по каналам коммуникации. Автор ставит своей целью осмысление проблем эффективности журналистской дея­тельности в ее конкретном проявлении, применения частотного анализа текстов в качестве инструментов анализа, позволяющих получить разнообразные характеристики текста, дающих возмож­ность через текст увидеть более широкое поле коммуникации и с высокой степенью оперативности скорректировать текст для оп­тимизации коммуникативного процесса.

Рассматривая отношения «текст—аудитория», Е.П. Прохоров раскрыл этапы и элементы процесса массовой коммуникации, ус­ловия и обстоятельства, от которых зависит конечный результат. Он ввел понятие «потенциальной информации», когда текст, предназначенный для массовой аудитории, еще не вступил с нею в контакт, и неизвестно, как содержащаяся в нем информация будет воспринята аудиторией. «Если текст "не получен" аудиторией или дошел до нее сильно искаженным, то можно говорить о серьезных нарушениях в информационном процессе или о его прерывании. Следовательно, потенциальная информация сработает лишь в том случае, если "достигнет" аудитории. Поэтому собственно инфор­мацией в тексте оказывается лишь то, что и так принято и освоено аудиторией. Не случайно в научном знании об информации это положение является отправным моментом, а разделение сообще­ния и информации принципиальным. Сообщение — это еще не информация (или только потенциальная информация)» (Прохо­ров, 2007: 44). Под принятой информацией Е.П. Прохоров пони­мал ту часть текста, которая «взята» аудиторией. Чем больше сов­падение этих двух частей, тем больше информативность текста. Для понимания процесса массово-информационной деятельности и правил, которыми должен руководствоваться создатель текста, он ввел очень важное для процесса исследования понятие трех этапов массово-информационного процесса: отображение дейст­вительности, создание текста и освоение текста аудиторией. Текстовую деятельность журналиста как «знаковую» он также опи­сывал с трех сторон: семантической, синтактической и прагмати­ческой, где семантика текста — это характеристика его отношения с действительностью (что и как отображено), синтактика — харак­теристика структуры текста, прагматика — характеристика того, как он осваивается аудиторией (Прохоров, 2007: 45—46). Иннова­ционным в этом подходе оказывается то, что текст здесь выступает не отдельным самодостаточным субъектом, свойства и качества которого описываются как принадлежащие ему имманентно, не­зависимо от процесса коммуникации, но в динамике, как элемент лассуэлловской формулы: кто говорит, что говорит, по какому ка­налу, кому говорит, с каким эффектом. В этой парадигме исследо­вания текст рассматривается как элемент, находящийся внутри коммуникационного процесса, во взаимодействии всех названных элементов: коммуникатор, текст, канал коммуникации, аудито­рия, результат. Эта формула, как и ее элементы, многократно рас­сматривалась теоретиками и использовалась практиками при изучении массово-коммуникационных процессов. В практичес­ких исследованиях использовались чаще всего методы контент-анализа, позволяющие изучить огромные массивы данных. Одна­ко количественные методы исследования больших массивов эмпирических данных не всегда оказывались исчерпывающе эф­фективными, поскольку в массовом исследовании терялись оттен­ки, присущие конкретным случаям. Социологи стали проявлять интерес не только к массовым объектам, но и к индивидуальным, применять для анализа более тонкие методы качественного анали­за, в том числе при социологическом изучении текстов СМИ. При использовании программ частотного анализа текстов стало воз­можным соединять анализ единичного текста с его статистически­ми характеристиками. Это позволило рассматривать текст во взаи­модействии с другими элементами коммуникативного процесса, выявлять их качества, воздействующие на коммуникативный про­цесс.

В данной ситуации представляется уместным рассмотреть и применить на практике программы анализа текстов, которые на­ходятся в Интернете и позволяют получить информацию, дающую возможность описывать, корректировать и оптимизировать про­хождение сообщений через каналы массовой коммуникации. Эти программы основаны на методах частотного анализа текстов, реа­лизуются автоматически и оперативно, что имеет значение для внесения изменений в текст до его взаимодействия с аудиторией. Это качество программ делает их особенно полезными для журна­листов.

В работе приведены примеры применения этих программ к текстам массовых коммуникаций, позволяющих проанализиро­вать их возможности. Работая с этими программами на семинарах со студентами, изучавшими социологию СМИ, в частности СМИ как особый вид массовых коммуникаций, мы убедились в том, что программы применимы для совершенствования процесса комму­никации. Их можно использовать самим авторам в целях само­контроля, что оказывает существенную помощь молодым работ­никам СМИ, у которых еще нет достаточного опыта, чтобы интуитивно определять соответствие качеств текста целевой ауди­тории, аналитикам произведений, проходящих по каналам СМИ, а также для исследования эффективности деятельности канала в целом.

Возвращаясь к наследию Е.П. Прохорова, отметим, что в сво­их теоретических изысканиях он уделял немало внимания фигу­ре коммуникатора и его взаимодействию с аудиторией. В класси­ческой формуле американского социолога Г. Лассуэлла, о которой говорилось выше, представлена модель коммуникаци­онного процесса. Она же является и моделью изучения этого процесса. По этой формуле коммуникатор — исходное звено процесса. Он также и один из наиболее трудных для изучения участников процесса. Что можно сказать о коммуникаторе, если исследователь имеет дело только с созданным им текстом? Ока­зывается, если правильно выбрать аналитическую программу и внимательно изучить полученные результаты, можно узнать мно­гое. Так, для исследования коммуникатора можно обратиться к частотным анализаторам, работающим с индексами удобочитае­мости Флеша и Фога. Эти индексы предназначены для того, что­бы определить сложность текста для восприятия аудиторией, по­нять, насколько комфортно чувствует себя аудитория при чтении этих текстов.

Индексы удобочитаемости Флеша и Фога

Индекс Флеша2 — это мера определения сложности текста для восприятия, вычисляется на основании среднего количества слов в предложении, среднего количества слогов в слове. Чем индекс меньше — тем сложнее текст (понятен, удобен для восприятия определенной аудиторией).

Индекс Фога3 оценивает необходимый образовательный уро­вень для восприятия конкретного текста и рассчитывается из установления средней длины предложений и удельного веса сложных слов. Здесь, по сравнению с индексом Флеша, обратная зависимость. Чем индекс меньше, тем легче воспринимается текст и тем большей аудитории он будет понятен. Значение 16— 20 подходит для людей с высшим образованием, 9—10 — для вось­миклассника и читателя газеты, 7—8 — язык любовных романов. Вячеслав Шпаковский отмечает следующую особенность этого индекса, отразившуюся в его названии: «Одним из наиболее сильных средств воздействия на массовую аудиторию, причем это средство основано на полной искренности со стороны того, кто им пользуется, является фог-индекс, или индекс туманности. Этот показатель принят в англоязычной журналистике (по-английски «фог» — туман) и служит для определения степени «читабельности» текстов. Первое, что следует знать: любой текст усваивается и понимается тем лучше, чем меньше в нем повторя­ющихся слов в объеме одного листа формата А4. В идеале надо стремиться к тому, чтобы на одной странице вообще не встреча­лось двух одинаковых слов, пусть даже в реальной жизни это тре­бование часто трудновыполнимо»4. Эти индексы с анализаторами текста, представленные в Интернете, дают возможность опера­тивно проанализировать текст и понять на какую аудиторию рас­считывал коммуникатор, какая аудитория для него целевая. Если, к примеру, текст создан для детей младшего школьного возраста, а понять его может лишь выпускник вуза, то можно сделать вывод, что коммуникатор должен адаптировать текст к целевой аудитории. Или, наоборот, текст может предназначаться специализированной аудитории с высоким уровнем образования и знаний, а изложен упрощенно, примитивно, в таком случае индекс может показать широкую доступность текста, но текст будет банальным для профессиональной аудитории. Изучая текст с помощью индексов удобочитаемости, мы, тем самым, изучаем и коммуникатора, его способность учитывать характеристики целевой аудитории для установления прочного коммуникативно­го взаимодействия.

На семинарских занятиях со студентами в первом семестре 2015—2016 учебного года мы сравнили два текста выступления В.В. Путина, опубликованных в СМИ (любые тексты, поступив­шие в каналы массовой коммуникации, позиционирующие себя как СМИ, можно рассматривать как тексты массовой коммуни­кации или, как говорилось выше, как тексты СМИ). В данном случае были выбраны тексты, поступившие в каналы массовой коммуникации с небольшим временным интервалом: выступле­ние В.В. Путина на заседании Генассамблеи ООН и его же высту­пление на ХП ежегодном заседании Международного дискус­сионного клуба «Валдай». Анализ этих текстов представлял ис­следовательский интерес, потому что эти тексты публиковались многими СМИ, принадлежали высшему должностному лицу, были близки по тематике, рассчитаны на серьезный ре­зонанс и публиковались в одном временном интервале. Уровень подготовленности аудитории и в том, и в другом случае был до­вольно высоким, но все-таки не одинаковым. Учитывал ли это коммуникатор? Об этом можно судить по результатам анализа текстов. Совсем иной объект для анализа представлял текст Ми­хаила Булгакова «Золотистый город». Написаный как репортаж о крупном событии в жизни тогдашней России и высоко оценен­ный как профессиональное произведение коллегами-журналистами, он носил в то же время яркий оттенок индивидуальности автора. Можно ли с помощью частотного анализа уловить не только общие, но и индивидуальные черты журналистского материала — этот вопрос также интересовал студентов-журналистов. Ниже представлены данные, полученные в результате применения программ частотного анализа.

Результаты анализа текста выступления В.В. Путина на заседа­нии Генассамблеи ООН 28 сентября 2015 г.

Индекс Фога: 10 — Язык профессиональной прессы. Доступен для понимания подготовленной части аудитории.

Индекс Флеша: 21 — Текст сложно читается. Доступен для по­нимания людям с высшим образованием.

Результаты анализа текста выступления В.В. Путина на ХII еже­годном заседании Международного дискуссионного клуба «Валдай» 22 октября 2015 г.

Индекс Фога: 7 — Язык популярной прессы. Доступен для по­нимания широкой аудитории.

Индекс Флеша: 37 — Текст средней степени сложности. Досту­пен для широкой аудитории.

Судя по данным анализа, коммуникатор адаптирует текст к уровню понимания аудитории, настраивает его на целевую аудиторию5.

Семантические анализаторы текста

Следующие данные, характеризующие текст и имеющие суще­ственное значение для процесса коммуникации, исследователь может получить, пропустив текст через различные семантические анализаторы онлайн. Полученные результаты также помогают оп­тимизировать процесс коммуникации.

Анализаторы различаются полнотой статистических показате­лей текста.

Семантический анализ текста Адвего — это компонентная оценка количества слов или фраз, определяющих основной смысл текста (семантическое ядро), и статистических показателей.

Считается, что именно семантическое ядро обеспечивает успех проходящему по каналам коммуникации тексту. Статистика тек­ста — это подсчет количества символов, символов без пробелов, слов, уникальных слов, значимых слов, стоп-слов, «воды», грам­матических ошибок, «тошноты» текста — классической и академи­ческой, семантического ядра.

Количество символов — общая численность с учетом знаков препинания и пробелов.

Количество символов без пробелов — то же самое, исключая пробелы.

Численность уникальных слов — количество слов в тексте без учета повторов.

Численность значимых слов — это количество существитель­ных, определяющих смысл текста.

Стоп-слова — частицы, предлоги, междометия и иные связую­щие слова, не имеющие собственного смысла.

«Вода» — вычисляется путем деления количества значимых слов на общее количество слов в документе. Выражается в про­центах. Считается, что количество воды в документе не должно превышать 65%. Текст, содержащий больше 75% воды, необходи­мо «высушить».

«Классическая тошнота» — это специфический термин, ис­пользующийся только при семантическом анализе текста. Он ука­зывает на количество повторений одного и того же слова в тексте, подсчитывается как квадратный корень из числа повторов. Наи­лучший показатель — 7. Повышение коэффициента затрудняет восприятие текста. Если речь идет о таком канале, как Интернет, то увеличение повторов тормозит продвижение ресурса.

«Академическая тошнота» — показатель повтора слов в тексте. Чем он выше, тем больше слов в тексте повторяется.

Семантический анализ и учет его результатов делают продук­тивным коммуникативный процесс, поскольку создают для ауди­тории наиболее благоприятные условия понимания текста. На се­минарских занятиях студентам предлагалось сделать анализ избранных фрагментов текста журналистского репортажа М. Бул­гакова «Золотистый город» (иногда это произведение М. Булгако­ва называют очерком, но, по мнению автора данной статьи, он ближе к репортажу по характеру воспроизведения реальных собы­тий и поведения журналиста). Для исследования взят текст репор­тажа Михаила Булгакова «Золотистый город», написанный им в 1923 г. для берлинской газеты «Накануне», посвященный работе сельскохозяйственной и кустарно-промышленной выставки, отк­рытой в августе 1923 г. в Москве на нынешней территории Парка культуры и отдыха имени Горького6. Вспоминая об этом событии, писатель и сотрудник газеты «Накануне» Э. Миндлин пишет: «Все мы писали тогда о выставке в московских газетах. Но только Булгаков преподал нам "высший класс" журналистики»7. В чем заключался «высший класс» помогает понять семанти­ческий анализ текста.

Семантический анализ фрагмента текста М. Булгакова Золоти­стый город

Статистика текста:

Количество символов 7035 Количество символов без пробелов 5952 Количество слов 1000 Количество уникальных слов 594 Количество значимых слов 337 Количество стоп-слов 300 Вода 66, 3%

Количество грамматических ошибок 8 Классическая тошнота документа 3,16 Академическая тошнота документа 4,3%

В анализе выделяется семантическое ядро документа, в кото­ром слова представлены по мере частоты употребления. Самое распространенное слово «павильон» употреблено 10 раз, что естественно, поскольку речь идет о выставке. Самые редко повто­ряемые (по два раза) — 81 слово.

Семантический анализ при исследовании коммуникативного процесса позволяет расширить представления исследователя о коммуникаторе, учете им интересов аудитории, доступности текс­та для аудитории. Имеются и другие разновидности семантичес­кого анализа с помощью компьютерных анализаторов. Одна из них — анализ текста на «тематичность»8. В зтом анализе определя­ется, насколько четко представлена в тексте или его фрагменте главная тема (или ряд тем).

На семинарских занятиях студенты пропустили два фрагмента из репортажа «Золотистый город» Михаила Булгакова через ана­лизатор, именуемый «молочный слон», предназначенный для анализа текста на тематичность. Проблема состояла в том, что анализатор не может принимать больше 10 000 знаков, а при всей кажущейся простоте булгаковского текста он отличается образ­ностью и быстрой сменой кадров, как в кинематографе. В нашем случае анализатор выделил пять тематических направ­лений, а также ключевые слова, определив индекс тематичности текста:

5 наиболее соответствующих тексту тем: «на берегу реки», «чер­ный свет», «под дерево», «где в Москве», «московские фабрики». Это действительно отражает суть содержания анализируемых фрагментов, в которых описываются экспонаты выставки: товары, произведенные в Москве и на периферии, символизирующие оживление производства, — проблема весьма существенная для страны, только что вышедшей из Гражданской войны.

Индекс тематичности данного фрагмента — 3,58. Индекс в пре­делах от 1 до 7 характеризует текст как удовлетворительный по качеству9.

Еще один вид семантического анализа — определение ключе­вых слов.

Результаты анализа главы «На Москве-реке» репортажа М. Бул­гакова «Золотистый город»:

Всего символов: 2237. Всего слов: 304. Уникальных слов: 224.

Ключевые слова: трамвая, дерево, людей — употребляются по 3 раза, вес — 1,22.

Остальные ключевые слова: планом, павильон, машины, дю­шес, значок, реки, пять, надо, берегу, Москвы, этом, Манечка, среди — употреблены по 2 раза с весом 0,82.

Ключевые слова и их вес показывают значение смысловых еди­ниц, которое им придает в тексте коммуникатор, разнообразие и богатство языка, способствующее стимулированию внимания аудитории10.

Ключевые слова могут раскрыть неявные предпочтения автора, отразившиеся в тексте. При семантическом анализе главы «Золо­тистого города» под названием «Кустарный» (имеется в виду па­вильон кустарных изделий) обнаружилось, что самое распростра­ненное ключевое слово в этом тексте — Троцкий. Притом что у Булгакова вообще мало повторов слов, оно встречается три раза, в то время как другие ключевые слова — 2 раза. Сталин не упомина­ется ни разу. Здесь поле для раздумий литературоведов; известно, что некоторые из них отмечали несколько большую симпатию Булгакова к Троцкому, чем к другим руководителям Советского государства. Так, Борис Соколов писал: «Не исключено, что имен­но своеобразная приверженность Троцкого к национальной куль­туре предопределила заинтересованное отношение и даже опреде­ленную симпатию к нему со стороны Булгакова. Вероятно, для писателя в образе Троцкого навсегда слились апокалипсический ангел — губитель белого воинства, яркий оратор и публицист и толковый администратор, пытавшийся упорядочить советскую власть и совместить ее с русской национальной культурой»11. По­влияло ли это отношение на взаимоотношения Булгакова со Ста­линым и судьбу его произведений? Поиск ответов на этот вопрос адресуем литературоведению. Нас же в данном случае интересует то, что программы семантического частотного анализа текстов, размещенные в Интернете, обладают большим аналитическим по­тенциалом и могут рассказать о процессе коммуникации даже то, что скрыто от глаз.

Выше мы ссылались на высказывание современника Булгакова о том, что именно Булгакову удалось написать о значительном в жизни страны событии — выставке 1923 г. — лучше всех. При из­учении результатов применения программ анализа можно прийти к выводу, что эта оценка основана на таких характеристиках булга­ковского текста, выявленных в анализе, как оригинальность стиля автора, органически сочетающего подробное описание увиденно­го и серьезное отношение к описываемому событию с юмором и богатым лексическим разнообразием языка, сводящим к миниму­му повторы, а также доступностью текста для большого количест­ва читателей.

Таким образом программы частотного анализа, присутствую­щие в Интернете, могут способствовать пониманию и оптимиза­ции процесса коммуникации.

Примечания

Статья посвящается памяти Евгения Павловича Прохорова, создателя тео­рии журналистики, профессора, чьи идеи продолжают вдохновлять его последо­вателей и учеников, работающих в области науки о журналистике. Статья основа­на на выступлении автора на «Прохоровских чтениях», проходивших на факультете журналистики МГУ 24 марта 2016 г. 

2 Режим доступа: https://audittest.ru//readability/

3 Там же.

4 Вячеслав Шпаковский. Фог-индекс, или Без тумана в голове. Режим доступа: http://www.Pravda.ru/science/

5 Режим доступа: https://audittest.ru//readability/

6 Булгаков М.А. «Золотистый город» // Михаил Булгаков. Спиритический се­анс. СПб: Азбука, 2011. С. 113-135.

7 Воспоминания о Михаиле Булгакове. М., «Советский писатель», 1988. С. 146.

8 Компания «Молочный слон». Режим доступа: http://stxt.ru/index.php

9 Php-анализатор от SEO-компании «Seozor». Режим доступа: http://seozor.ru/tools/analyzer

10 Там же

II Соколов Б.В. Расшифрованный Булгаков. Тайны «Мастера и Маргариты». М., 2016. С. 17.

Библиография

Прохоров Е.П. Введение в теорию журналистики. Учебник для студен­тов вузов. 7-е изд. М.: Аспект Пресс, 2007.

Сидоров В.А. Журналистский текст и социальная действительность: познание, отражение, преобразование // Социология журналистики / Под ред. С.Г. Корконосенко. М.: Аспект Пресс, 2004.



Поступила в редакцию 06.09.2016