Кросс-культурный тональный анализ пользовательских текстов в Твиттере

Скачать статью
Бодрунова С.С.

доктор политических наук, профессор кафедры менеджмента массовых коммуникаций Института "Высшая школа журналистики и массовых коммуникаций" СПбГУ, г. Санкт-Петербург, Россия

e-mail: s.bodrunova@spbu.ru

Раздел: Новые медиа

В статье представлен обзор современных исследований в области тонального анализа естественного языка (sentiment analysis, сентимент-анализ) в сети Интернет, в том числе на платформе микроблогов Twitter (Твиттер). Описаны направления современных исследований тональности твитов, методологические, технические и иные проблемы при анализе наборов данных, ограничения существующих подходов. Выделены группы современных исследований на основании нескольких критериев: наличие машинно¬го обучения, единица анализа, объект исследования. Показано, что наиболее крупной задачей современного тонального анализа текстов остается создание многоязычных инструментов, которые позволяли бы сравнительный анализ тональности высказываний и целых дискуссий в межстрановой и кросс- культурной перспективе. Оценены существующие инструменты кросс-культурного сентимент-анализа. Предложена концепция для разработки оригинального инструмента для анализа тональности высказываний в Твиттере на нескольких языках.

Ключевые слова: тональный анализ, сентимент, Твиттер, вычислительные методы в социальных науках, кросс-культурный тональный анализ
DOI: 10.30547/vestnik.journ.6.2018.191212

Введение: тональный анализ естественного языка и текстов в сети Интернет

Современные пользовательские дискуссии в сети Интернет со­держат важную социальную информацию, которую можно выяв­лять и изучать междисциплинарными методами. К такой информа­ции могут относиться социальные и политические аттитюды, культурные коды, паттерны межличностного общения и распро­странения знаний, информация о групповых интересах и конфлик­тных настроениях. Картирование онлайн-дискуссий и изучение их контента имеет прогностический и антиконфликтный потенциал.

Для адекватного картирования сетевой дискуссии необходимо выявить взаимосвязь между тремя компонентами: 1) структурой дискуссии (характером связей между ее узлами, характеристиками ведущих пользов ателей, наличием внутренних разломов и кла­стеров); 2) тематикой дискуссии и ее отдельных фрагментов; 3) то­нальностью дискуссии относительно обсуждаемого объекта (дискриминируемой социальной группы, политического актора, ком­мерческого продукта и т. п.). Но сетевые дискуссии остаются ма­лоизученными с точки зрения связи структуры дискуссии с харак­тером обсуждения, в т. ч. с эмоциональной составляющей пользо­вательской коммуникации.

Помочь в изучении эмоций пользователей способен тональный анализ (sentiment analysis, сентимент-анализ) — область исследова­ний на базе машинных методов обработки естественного языка (natural language processing), посвященная выявлению тональности высказывания (эмоционального отношения/оценки, чаще всего позитивной/негативной) — либо по отношению к обсуждаемому в тексте объекту, либо в тексте в целом.

Также для обозначения данной области исследований приме­няются термины анализ субъективности (subjectivity analysis) и глу­бинный анализ мнений (opinion mining; Dave et al., 2003). Большинст­во исследователей рассматривают сентимент-анализ как метод классификации текстов/документов. Следует различать классифи­кацию по тональности (document sentiment classification) - и класси­фикацию по объективности/субъективности (subjectivity classifica­tion) и только затем по тональности (только для субъективных документов).

Opinion mining - комплексная методология, включающая три этапа: 1) определение релевантных корпусов текстов; 2) выявле­ние среди найденного корпуса текстов, содержащих мнение (opin­ionated content); 3) определение тональности высказывания авторов текстов и кластеризация документов согласно выявленной то­нальности. Именно такой подход следует рассматривать в качестве базового для работы с короткими пользовательскими текстами (Liu, 2010).

Первая волна взрывного интереса к тональному анализу и ана­лизу субъективных мнений в пользовательских текстах относится к началу 2000-х гг. (Pang, Lee, 2008). С тех пор сложилось поле ис­следований тональности англоязычных текстов разного проис­хождения - настолько разветвленное и разнообразное, что позво­ляет даже говорить о его расплывчатости (Kan, 2012). Развитию конкурентных методов тонального анализа способствовали меж­дународные воркшопы. Так, команда под руководством Накова и Розенталя в рамках воркшопов SensEval и SemEval предложила для развития методов тонального анализа пять больших заданий (tasks), в которых разные группы ученых со всего мира применяли различные методики сентимент-анализа для решения одной и той же задачи (Nakov et al., 2016; Rosentahl, Farra, Nakov, 2017). Прово­дились подобные воркшопы и в России.

Современные подходы и методы в области тонального анализа

Основой тонального анализа является идея об автоматической классификации текстовых документов по тону высказывания (сентименту), то есть разделение документов по авторской эмоции - на группы условно негативных, условно позитивных и условно нейтральных текстов с помощью автоматизированных методов. Основанием для разделения текстов является лексический уро­вень (наборы слов с присвоенными негативными или позитивны­ми значениями), но многие методы учитывают грамматический строй речи, связи между лексическими единицами, а также иро­нию и многозначность.

Кластеризация текстов по тону может применяться в т. ч. для наборов традиционных медиатекстов и текстов из социальных ме­диа. Тональный анализ позволяет решать массу прикладных задач текстового анализа, например выделять радикально эмоциональ­ные тексты, потенциально содержащие призывы к насилию и роз­ни, и описывать настроения журналистов и пользователей по по­воду событий, персон, конфликтов. Сегодня именно социальные медиа становятся основным объектом тонального анализа в com­putational social science, т. е. социальных науках на основе вычисли­тельных методов.

Методы тонального анализа можно разбивать на подгруппы по разным признакам.

1) По наличию машинного обучения:

- методы, основанные на знании (knowledge-based approaches), то есть на изучении конкретного корпуса текстов и лексики в нем;

- методы, основанные на правилах и шаблонах (Schuller, Knaup 2011; Клековкина, Котельников, 2012), закрепленных в языке;

- методы машинного обучения без учителя (non-supervised ma­chine learning approaches);

- методы машинного обучения с частичным/полным присутст­вием учителя (semi-supervised/supervised machine learning approaches) (Shalunts, Backfield, 2016).

Как правило, это разделение описывается как разделение меж­ду методами на основе лексиконов и методами машинного обуче­ния (Pang et al., 2002; Goncalves et al., 2013). Методы на основе лексиконов, как указано выше, делятся на словарные методы и методы на основе конкретных корпусов текстов (статистические и семантические) (Serrano-Guerrero et al., 2015). Размеченные вруч­ную и/или с помощью словарей лексиконы/тезаурусы содержат информацию как о словах и фразах, так и о типах и силе связей между ними.

Методы машинного обучения — без учителя и с учителем — предполагают обучение машины распознавать эмоции пользова­телей на основе размеченной выборки текстов, закодированной вручную, с помощью кодировщиков (так называемой эталонной коллекции). Алгоритм обучения и классификации текстов приня­то называть классификатором. Разработаны различные типы классификаторов, которые делятся на:

- классификаторы на основе древа решений (decision tree classifi­ers) (Serrano-Guerrero et al., 2015);

- линейные классификаторы: на основе опорных векторов (sup­port vector machines, SVM) (Barbosa, Feng, 2010; Pak, Paroubek, 2010; Kontopoulos et al., 2013), на основе нейронных сетей;

- классификаторы на основе правил и шаблонов;

- вероятностные классификаторы: наивный Байесов классифи­катор, Байесовы сети, классификатор на основе метода макси­мальной энтропии.

Многие исследования строятся на сочетании лексикон-ориентированных методов и методов машинного обучения. Улучшение SVM-классификаторов составляет отдельную научную проблему (Sharma, Dey, 2013). Считается, что для малоструктурированных текстов с высоким уровнем шума — таких, какие и бывают в соц­сетях, — пригодны модели на основе мешка слов (bag-of-words ap­proach; Yessenov, Misailovic, 2009), то есть методы вероятностной оценки со-встречаемости слов. Иногда для векторных класси­фикаторов и классификаторов на основе мешка слов предла­гается учитывать веса слов в текстах, в т. ч. их частоту (Tellez et al., 2017).

2) По избранной единице анализа выделяют подходы, имею­щие единицей классификации или весь документ, или фрагменты текста — синтагмы и отдельные термины, где под термином пони­мается слово или словосочетание, свойственное тексту (Kouloumpis et al., 2011). Тональный анализ может проводиться на уровне леммы, синсета (комплекта связанных между собой семан­тическими связями эмоционально окрашенных лексем), синтаг­мы/предложения (sentence), всего документа (Liu, 2012; Cruz et al., 2014).

Отдельное место в обсуждении методологии уделяется спосо­бам репрезентации и понимания термина (в указанном выше зна­чении). Одним из таких способов является выделение в текстах так называемых n-грамм — формальных фрагментов в несколько лексических единиц, где ключевое слово окружено лексемами с обеих сторон (вида 1±n). Так можно оценить, в каком тональном окружении находится ключевое слово. Чаще всего для анализа ис­пользуются униграммы и биграммы, то есть фрагменты самой ма­лой длины — в три и пять слов. Еще одним важным дополнением к знанию о словарном составе исследуемого текста является автома­тизированная расстановка (labeling) частей речи.

3) По объекту анализа (Loukashevitch et al., 2015; Pontiki et al., 2016):

- общий сентимент-анализ (для определения тональности всего текста);

- подходы, ориентированные на объект (object-related/entity-re­lated approaches), т. е. направленные на выявление отношения к некоему объекту (политику, компании, событию и т. д.). Может ис­пользоваться для мониторинга репутации, отслеживания настрое­ния избирателей и т. д.;

- подходы, ориентированные на аспект/характеристику тако­го объекта (aspect-related/feature-based approaches). Технически мало чем отличаются от объект-ориентированного сентимент- анализа, но ориентированы на идентификацию отношения поль­зователей к отдельным характеристикам объекта. Например, аспект-ориентированный тональный анализ может применяться к оценке мнений комментаторов в рекомендательных сервисах, где для объекта (например, кинотеатра) оцениваются стоимость би­летов, транспортная доступность, удобство кресел, звук, экраны и т. д.

Иные методы включают разные способы улучшения опознава­емости эмоциональных высказываний путем комбинации тональ­ного анализа с другими методами анализа текста. Это в том числе:

- кросс-доменное улучшение качества тонального анализа (Ponomareva, Thelwall, 2012), то есть попытки переноса методов, разработанных для какой-то одной тематики (скажем, рецензий на книги) в другие тематические области. Это, скорее, не метод, а подход, включающий целый комплекс методик, в т. ч. некоторые из перечисленных ниже;

- графовый тональный анализ (graph-based approach to sentiment analysis) (Усталов, 2012; Ponomareva, Thelwall, 2012). Это комплекс методик, основанный на вероятностных алгоритмах оценки со-встречаемости слов с уже известным (например, словарным) сентиментом и слов, сентимент которых неизвестен и выявляется пу­тем многократного перебора вероятностей их нахождения рядом с размеченными словами. При этом каждому слову с неизвестным сентиментом в каждой итерации присваивается значение, равное сумме окружающих слов - как размеченных, так и не размечен­ных; с каждой итерацией значение для каждого слова уточняется и объем знания о сентименте в корпусе текстов растет. Алгоритм останавливается, когда достигает так называемой точки конвер­генции, когда значения для всех слов определены с приемлемой (установленной заранее) точностью;

- семантический тональный анализ (Saif et al., 2012), суть кото­рого в добавлении семантической категории к объекту или классу объектов (например, продукт Apple — к iPhone). Эмоции пользова­телей оцениваются не только по отношению к объекту, но и по от­ношению к семантической категории;

- сочетание тонального анализа с методами вероятностной кла­стеризации текстов, например тематическим моделированием (Li et al., 2010; Ohmura et al., 2014), и оценка сентимента по отдель­ным кластерам, например отдельным темам внутри набора дан­ных;

- применение методов дискурс-анализа к разметке текстов для тональной оценки (Heerschop et al., 2011);

- тональный анализ с помощью нейронных сетей (neural-networks-based sentiment analysis) (Dos Santos, Gatti, 2014). Этот метод привлекателен тем, что его результаты не всегда соответствуют ожиданиям исследователей и позволяют высококачественно вы­полнить задачу, но результаты применения нейронных сетей не всегда поддаются интерпретации с алгоритмической и каузальной точек зрения.

Оценка качества анализа. Традиционно оценку качества то­нального анализа проводят двумя способами. Во-первых, качество оценивают путем сравнения результатов автоматизированного анализа с данными эталонной коллекции. Еще один путь — ручное кодирование эталонной коллекции, разработка лексикона на ее основе, его применение для оценки тональности текстов и затем повторная оценка кодировщиками точности автоматического присвоения тональности.

Но этот путь трудозатратен, поэтому разработаны также авто­матические меры оценки качества тонального анализа. Они не всегда точны для каждого конкретного текста, но признаны в ка­честве легитимных. Назовем только некоторые, наиболее попу­лярные: /-мера гармонической точности (F-measure of harmomic accuracy), точность/достоверность (precision), полнота (recall).

Алгоритмические и программные решения для тонального анализа. Сегодня доступные научному сообществу программные инстру­менты включают более двух десятков алгоритмов; некоторые из них доработаны в готовые программные продукты для нескольких языков. Примером такого программного пакета может быть бри­танский SentiStrength (Thelwall, 2013), применяемый для определе­ния тональности и ее силы и сегодня работающий с испанским и другими европейскими языками. Его аналогом может выступать пакет SocialMention. Часто при оценке различных алгоритмов в один ряд ставятся алгоритмы и тезаурусы (например, SentiStrength и SenticNet). Это обусловлено размытыми границами между пони­манием алгоритма и тезауруса, поскольку наиболее сложные теза­урусы де-факто устроены алгоритмически и являются не наборами размеченных лексем, а наборами лексем с приданной семантиче­ской связью, что позволяет словарю действовать как единое целое.

Более простые и доступные инструменты, которые использова­лись для решения задач майнинга мнений в середине 2000-х — на­чале 2010-х гг., включают такие известные инструменты, как Pro­file of Mood States он Google и OpinionFinder (Wilson et al., 2005), использовавшие простую бинарную (позитивные/негативные) классификацию мнений. Но сегодня предпочтительно использо­вать инструментарий, позволяющий решить большее количество задач и адаптированный для разных языков.

Тональный анализ за пределами англоязычной зоны: проблема отсутствия лексиконов и сентимент-анализ для русского языка

С начала 2010-х гг. двумя актуальными тенденциями в сентимент-анализе остаются его развитие для социальных медиа и раз­витие многоязычного (кросс-лингвального) тонального анализа.

Общим местом в научной литературе о сентимент-анализе ста­ло указание на отсутствие исследований за пределами англоязыч­ной зоны. Причиной этого чаще всего является отсутствие доступ­ных тезаурусов для тонального анализа на национальных языках. До 2014 г. существовало всего 12 общедоступных неанглоязычных лексиконов для тонального анализа. В 2014 г. была предпринята беспрецедентная попытка создать словари для 136 языков и проте­стировать их эффективность на 30 языках, а также на 12 доступ­ных неанглоязычных словарях (Chen, Skiena, 2014). Но степень сходимости результата с ручным кодированием была ниже 50%, и предложенные авторами словари практически не используются.

В 2016—2018 гг. появилось сразу много работ, в которых анализу подвергаются тексты на основных европейских языках, в т. ч. не­сколько кросс-лингвальных (см. ниже). Но в основном авторы не занимаются разработкой словарей для каждого из языков, а ис­пользуют машинный перевод негативных и позитивных лексем из доступных англоязычных тезаурусов. Это, конечно, снижает каче­ство анализа. Сегодня в исследованиях по всему миру используют­ся два ведущих англоязычных семантических тезауруса:

- производные классического семантического словаря англий­ского языка WordNet - WordNet-Affect и SentiWordNet 3.0 (Baccianella et al., 2010), разработанные Принстонским университетом;

- SenticNet 4 (http://sentic.net), разработанный MIT. Тезаурус со­держит 50000 единиц и обладает несколькими преимуществами от­носительно других тезаурусов: он связывает слова семантически, т. е. более гибок, охватывает оценкой большее число случаев со-встречаемости слов и может обеспечить связь semantics и sentics (ког­нитивной информации и аффективного модуса высказывания).

Русский язык пока редко становится объектом исследования в тональном анализе. Можно отметить работы Четверкина и Лука­шевич (2012, 2013), в т. ч. сравнивающие подходы к тональному анализу, разработанные на тот момент. В 2011 г. Пазельская и Со­ловьев предложили метод выделения эмоциональной лексики в русском языке путем сочетания векторных и словарных методик (Пазельская, Соловьев, 2011), рассчитанный, однако, на «грамма­тически правильные тексты СМИ», а не на контент из Интернета. Зарубежные авторы, участвующие в разработке методик кросс-лингвального тонального анализа, иногда также используют рус­ский язык как целевой (target language), то есть такой, на который совершается перевод словаря с английского языка.

Попытки создать собственные словари для русского языка пред­принимались несколько раз. Так, молдавские исследователи (Soko­lova, Bobicev, 2009) разработали первый лексикон для русского (и румынского) языка на основе WordNet-Affect, но данная разработка не применяется для изучения текстов в Интернете. Лаборатория Интернет-исследований НИУ ВШЭ завершает создание тонально­го словаря русского языка на основе краудсорсинга и экспертной разметки, но пока словарь недоступен. Некоторые словарные под­ходы и подходы на базе машинного обучения были опробованы участниками семинара РОМИП в начале 2010-х (Клековкина, Ко­тельников, 2012); их опыт указывает на то, что для русского языка следует применять комбинированные методы сентимент-анализа.

В условиях отсутствия национального словаря, которому можно доверять, лексиконы, переведенные с английского, следует обога­щать, в т. ч. добавлять в лексикон оцененный вручную частотный словарь самого кейса и использовать (после экспертной оценки) комплекты размеченной эмоциональной лексики из открытых источников (иных исследований, коммерческих словарей и т. д.).

Сентимент-анализ для Твиттера

Активное изучение твитов с точки зрения тонального анализа началось около 2010 г. (Kouloumpis et al., 2011). Изучение тональ­ности текстов пользователей, особенно коротких текстов Твитте­ра, как показывают работы многих ученых, значительно осложне­но в силу нескольких причин.

1) Выбор единицы анализа. Как указано выше, тональный ана­лиз может проводиться на уровнях от леммы до всего документа. Но к Твиттеру возможно применение классификации как на уров­не предложения, так и на уровне документа, что в данном случае не важно по сути (ведь твит крайне редко содержит более одного предложения), но меняет оптику исследователя, предлагаемые ин­струменты, результаты анализа и их интерпретацию. В воркшопе SemEval было предложено разделение семантического анализа для Твиттера на анализ всего сообщения (message-level analysis) и тер­минов (слов, словосочетаний, последовательностей слов; term-lev­el analysis) (Poursepanj et al., 2013; Zhu et al., 2014).

2) Мультилингвальность твитов: часто хэштегами, написанны­ми на одном языке (например, #JeSuisCharlie), маркируются твиты на другом языке. Анализ таких твитов требует многоязычных лек­сиконов и/или корпусов текстов для машинного обучения (Vilares et al., 2017) либо нахождения алгоритма фильтрации многоязыч­ных твитов из корпусов текстов.

3) Языковые особенности твитов. Во-первых, это нарушение грамматических и иных языковых правил пользователями плат­формы. Во-вторых, отсутствие сложных предложений в силу ли­мита на число символов (140 знаков). В-третьих, большое количе­ство жаргонной и просторечной лексики, аббревиатур и эмотиконов (смайликов) (Kontopoulos et al. 2013). На исключи­тельном или частичном использовании эмотиконов для оценки тональности построено уже более десятка серьезных исследований тональности в Твиттере (Pak, Paroubek, 2010), но интерпретация эмотиконов в кросс-лингвальной среде пока мало изучена, несмо­тря на их кажущееся единообразие.

4) Высокий процент сарказма в корпусах твитов (Liu, 2012; Maynard, Greenwood, 2014). Такие твиты запутывают классифика­тор, так как позитивные лексемы в совокупности создают нега­тивное высказывание за счет интонации и/или изменения поряд­ка слов. В случае конфликтных дискуссий в Твиттере число таких твитов еще сильнее возрастает (Bodrunova et al., 2015). Для устра­нения сбоев классификатора из-за сарказма рекомендуется при­менение методов машинного обучения на размеченных коллекци­ях твитов.

5) Особенности предварительной обработки наборов данных. Как правило, процедуры препроцессинга включают токенизацию (tokeнizatioн), нормализацию (normalization) и разметку по частям речи (POS tagging). Однако некоторые работы показали, что раз­метка по частям речи не работает для твитов (Kouloumpis et al., 2011).

В силу указанных причин инструменты, разработанные для корпусов текстов большего объема и большей ориентации на письменный стиль изложения, дают сниженный результат анализа (low recall) для корпусов твитов. Поэтому для Твиттера, во-первых, предложено использовать наиболее простые методы анализа, ко­торые подвергаются постоянной ручной перепроверке (см. Nielsen, 2011), во-вторых, представлено несколько (пока недоста­точно апробированных) многоступенчатых моделей тонального анализа на основе относительно простых шагов (Chikersal et al., 2015; Sudchev et al., 2014). Более сложные алгоритмы комбиниру­ют выделение признаков изучаемого объекта (feature-based models, tree kernel-based models и др.) с n-граммами и словарями, а также с машинным обучением (Agarwal et al., 2011) или используют по­строение онтологий на базе формального анализа концептов (for­mal concept analysis) (Kontopoulos et al., 2013).

В целом тональный анализ для Твиттера пока находится на на­чальной стадии развития. Часто оценка сентимента твитов вос­принимается как самоцель. Лишь в нескольких работах сентимент-анализ твитов применяется для анализа, предсказания или описания иных явлений. Так, сентимент твитов связывается с дви­жением рынка акций (Smailovw et al., 2013), политическими пред­почтениями граждан (Ceron et al., 2014; Wang et al., 2012; Zhou et al., 2013), осведомленностью во время техногенной катастрофы (Verma et al., 2011). При этом тональный анализ должен, в первую очередь, служить целям описания и предсказания социальных яв­лений и предупреждения разрушений, жертв и паники во время природных и техногенных катастроф.

Бросается в глаза отсутствие исследований, связывающих то­нальность речи пользователей и их статус в дискуссии (например, выдвижение на влиятельную позицию; Bodrunova et al., 2016) или же метаданные пользователя (регион проживания, социальный статус и т. д.) с его эмоциональной стратегией. Так, только в одной работе (Stieglitz, Dang-Xuan, 2012) достоверно подтверждается связь тональности пользователей и их популярности по метрике ретвиты.

Аккумуляция опыта: современный многоязычный сентимент-анализ для социальных медиа

Кросс-лингвальный тональный анализ (cross-language sentiment analysis, CLSA) состоит в определении сентимента в нескольких па­раллельных корпусах текстов на разных языках при условии, что эталонная выборка размечена только для одного языка (Bader et al., 2011). С начала 2010-х гг. наблюдается растущий интерес к разви­тию методик CLSA. Но, как уже сказано выше, многоязычный то­нальный анализ находится в зависимости от качества машинного перевода и требует как минимум проверки независимости от пере­вода (translator independency test). Иногда применяется обратная стратегия перевода: переводятся не тезаурусы (с английского на це­левые языки), а сами пользовательские тексты (с целевых языков на английский), после чего к ним применяются инструменты для работы с английским языком. При этом сравнение результатов то­нального анализа текстов после машинного перевода почти не от­личается от результатов анализа оригинальных неанглоязычных текстов (проверка проводилась более чем для полутора десятков алгоритмов; Araujo et al., 2016)); машинный перевод с использова­нием разных переводчиков также дает сходный результат.

В конце 2000-х было сделано много попыток улучшить качест­во кросс-лингвального тонального анализа путем применения комбинации тематического моделирования, методов синхронного и совместного машинного обучения и др. с тональным анализом на основе машинного перевода. Но в начале 2010-х вышел ряд ра­бот (Duh et al., 2011; Balamurali et al., 2013), показавший, что в та­ких системах пока плохо учитывается разница в оформлении мне­ния и субъективности в разных языках. Для Твиттера, с его платформенными особенностями, кросс-лингвальный анализ ста­новится затруднен еще более. Отдельные работы посвящены сентимент-анализу в переводах одного корпуса текстов на разные языки (Balahur et al., 2014; Becker et al., 2017); в таких работах ча­сто используется метод триангуляции, включающий этапы пере­вода и ручной корректировки (Steinberger et al., 2011). Но для задач сопоставления реальных дискурсов в соцсетях этот метод непри­меним. При этом очевидна необходимость учитывать не только языковые, но и культурные и контекстуальные особенности из­учаемых корпусов текстов при составлении словарей и разметке эталонных выборок (Bodrunova, 2018); следует считать такой ана­лиз кросс-культурным тональным анализом.

Сегодня крайне редки работы, которые применяли бы сентимент-анализ на разных языках (включая русский) к текстам СМИ или социальных медиа для анализа сходных социальных конфлик­тов, острых вопросов повестки дня, войн, антропогенных и при­родных катастроф. Разработанные на данный момент программы и алгоритмы для кросс-лингвального тонального анализа в Твит­тере, например SentiSAIL (Shalunts, Backfield, 2016) или B4MSA (Tellez et al., 2017), пока не применялись к анализу реальных тема­тически сходных выборок на разных языках.

В этом контексте важна работа Mozetic et al. (2016): авторы по­казывают, что при анализе твитов на разных языках следует идти простым, но трудозатратным путем и использовать труд кодиров­щиков для создания размеченных кейс-специфичных эталонных выборок. В этом случае для повышения качества тонального ана­лиза критически значимым остается число закодированных для эталонной выборки твитов и степень согласия между экспертами, а не сам алгоритм сентимент-анализа. Исходя из авторских аргу­ментов, для тонального анализа Твиттера должно применяться ма­шинное обучение на основе кейс-специфичных экспертных сло­варей или выборок твитов. Подобный подход применялся в т. ч. для русскоязычных текстов (Yussupova et al., 2015).

Заключение: методика кросс-культурного тонального анализа для Твиттера

Вывод, который можно сделать из данного обзора, состоит в том, что пока не разработана методика тонального анализа на ос­нове параллельных кейс-ориентированных лексиконов, сформи­рованных вручную по одному и тому же принципу для сходных кейсов на разных языках (например, для дискуссий о межнацио­нальных конфликтах, миграционном кризисе или природных ка­тастрофах в разных языковых сегментах Твиттера).

Основой такой методики должна стать единая конструкция лексикона. Элементами такого лексикона для каждого из языков могли бы быть:

- сердцевина — узкая группа базовых тонально размеченных лексем данного языка;

- расширение для данного языка, пришедшее из единого источ­ника путем машинного перевода (например, из тезауруса WordNet и его производных или тезауруса SenticNet);

- корпус культурно-ориентированной эмоциональной марки­рованной лексики, созданный путем экспертной очистки и то­нальной разметки частотного словаря данного кейса и сопостав­ленный с такими же корпусами для параллельных кейсов, с тем чтобы установить степень сходства;

- сходные процедуры проверки качества тонального анализа.

Такой дизайн исследования позволил бы оценить, насколько в принципе возможна автоматизация и получение сходных резуль­татов тонального анализа без применения тотального перевода текстов на английский язык, что для Твиттера неприемлемо. Он также позволил бы разработать новые, универсальные критерии оценки качества тонального анализа коротких пользовательских текстов в сети Интернет.

Примечания

1 Статья подготовлена при поддержке Гранта Президента РФ для молодых ученых - докторов наук МД-6259.2018.6 "Кросс-культурный тональный анализ пользовательских текстов в сети Интернет")

Библиография

Клековкина М. В., Котельников Е. В. Метод автоматической классифика­ции текстов по тональности, основанный на словаре эмоциональной лек­сики // Труды XIV Всерос. науч. конф. «Электронные библиотеки: перспек­тивные методы и технологии, электронные коллекции». 2012. С. 118—123.

Пазельская А. Г., Соловьев А. Н.. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные тех­нологии: по мат. ежегодной Междунар. конф. «Диалог» (Бекасово, 25—28 мая 2011 г.). М.: Изд-во РГГУ, 2011.

Усталов Д. А. Извлечение терминов из русскоязычных текстов при по­мощи графовых моделей // Теория графов и приложения: мат. конф. М., 2012. С. 62—69.

Agarwal A., Xie B., Vovsha I., Rambow O., Passonneau R. (2011) Sentiment Analysis of Twitter Data. In Proc. ACL 2011 Workshop on Languages in Social Media. Pp. 30—38.

Araujo M., Reis J., Pereira A., Benevenuto F. (2016) An evaluation of ma­chine translation for multilingual sentence-level sentiment analysis. In Proceed­ings of the 31st Annual ACM Symposium on Applied Computing. Pp. 1140–1145.

Baccianella S., Esuli A., Sebastiani F. (2010) SentiWordNet 3.0: An En­hanced Lexical Resource for Sentiment Analysis and Opinion Mining. In LREC Vol. 10. Pp. 2200–2204.

Balahur A., Turchi M., Steinberger R., Ortega J. M. P., Jacquet G., KuQuk D., El Ghali A. (2014) Resource Creation and Evaluation for Multilingual Sen­timent Analysis in Social Media Texts. In LREC. Pp. 4265–4269.

Balamurali A. R., Khapra M. M., Bhattacharyya P. (2013) Lost in transla­tion: viability of machine translation for cross language sentiment analysis. In International Conference on Intelligent Text Processing and Computational Lin­guistics. Berlin: Springer, Heidelberg. Pp. 38–49.

Barbosa L., Feng J. (2010) Robust Sentiment Detection on Twitter from Bi­ased and Noisy Data. In Proc. of 23rd Int. Conf. on Computational Linguistics: Posters (COLING ‘10), Association for Computational Linguistics, Stroudsburg, PA, USA. Pp. 36-44.

Becker K., Moreira V. P., dos Santos A. G. (2017) Multilingual emotion classification using supervised learning: Comparative experiments. Information Processing & Management 53 (3): 684–704.

Bodrunova S. S. (2018) When Context Matters. Analyzing Conflicts with the Use of Big Textual Corpora from Russian and International Social Media. Partecipazione E Conflitto11 (2): 497-510.

Bodrunova S. S., Blekanov I. S., Maksimov A. (2016) Measuring influencers in twitter ad-hoc discussions: active users vs. internal networks in the discourse on biryuliovo bashings in 2013. In Artificial Intelligence and Natural Language Conference (AINL), IEEE. Pp. 1–10.

Bodrunova S. S., Litvinenko A. A., Gavra D. P., Yakunin A. V. (2015) Twit­ter-Based Discourse on Migrants in Russia: The Case of 2013 Bashings in Biryulyovo. International Review of Management and Marketing 5 (1S).

Ceron A., Curini L., Iacus S. M., Porro G. (2014) Every tweet counts? How sentiment analysis of social media can improve our knowledge of citizens’ polit­ical preferences with an application to Italy and France. New Media & Soci­ety 16 (2): 340–358.

Chen Y., Skiena, S. (2014) Building Sentiment Lexicons for All Major Lan­guages. In ACL (2). Pp. 383–389.

Chetviorkin A., Loukachevitch N. (2012) Extraction of Russian Sentiment Lexicon for Product Meta-Domain. In Proc. of the 24th International Conference on Computational Linguistics (COLING), Bombay, India. Pp. 593–610.

Chetviorkin A., Loukachevitch N. (2013) Evaluating Sentiment Analysis Systems in Russian. In Proc. of the 4th Biennial International Workshop on Balto-Slavic Natural Language Processing, Sofia, Bulgaria. Pp. 12–17.

Chikersal P., Poria S., Cambria E. (2015) SeNTU: Sentiment Analysis of Tweets by Combining a Rule-based Classifier with Supervised Learning. In SemEval@ NAACL-HLT. Pp. 647–651.

Cruz F. L., Troyano J. A., Pontes B., Ortega F. J. (2014) Building layered, multilingual sentiment lexicons at synset and lemma levels. Expert Systems with Applications 41 (13): 5984—5994.

Dave K., Lawrence S., Pennock D. M. (2003) Mining the peanut gallery: Opinion extraction and semantic classification of product reviews. In Proceed­ings of WWW. Pp. 519—528.

Dos Santos C. N., Gatti, M. (2014) Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts. In COLING. Pp. 69—78.

Duh K., Akinori F., Masaaki N. (2011) Is machine translation ripe for cross-lingual sentiment classification? In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:shortpapers (ACL-2011).

Gonsalves P., Araujo M., Benevenuto F., Cha M. (2013) Comparing and combining sentiment analysis methods. In Proceedings of the 1 st ACM Confer­ence on Online Social Networks (COSN), Boston, USA, ACM. Pp. 27—38.

Heerschop B., Goossen F., Hogenboom A., Frasincar F., Kaymak U., de Jong F. (2011) Polarity analysis of texts using discourse structure. In Proceedings of the 20th ACM international conference on Information and knowledge manage­ment. Pp. 1061—1070.

Kan D. (2012) Rule-based approach to sentiment analysis at ROMIP 2011. Avai­lable at: http://www.dialog-21.ru/digests/dialog2012/materials/pdf/Kan.pdf

Kontopoulos E., Berberidis C., Dergiades T., Bassiliades N. (2013) Ontolo­gy-based sentiment analysis of twitter posts. Expert systems with applications 40 (10): 4065—4074.

Kouloumpis E., Wilson T., Moore J. D. (2011) Twitter sentiment analysis: The good the bad and the omg! Icwsm 11 (538—541).

Liu B. (2010) Sentiment Analysis and Subjectivity. In Handbook of natural language processing, 2. Pp. 627—666.

Liu B. (2012) Sentiment analysis and opinion mining. Synthesis lectures on human language technologies 5 (1): 1—167.

Loukachevitch N., Blinov P., Kotelnikov E., Rubtsova Y., Ivanov V., Tutubalina E. (2015) SentiRuEval: testing object-oriented sentiment analysis systems in Russian. In Proceedings of International Conference Dialog. Vol. 2. Pp. 3—13.

Maynard D., Greenwood M. A. (2014) Who cares about Sarcastic Tweets? In­vestigating the Impact of Sarcasm on Sentiment Analysis. In LREC. Pp. 4238—4243.

Mozetic I., Grcar M., Smailovic J. (2016) Multilingual Twitter sentiment classification: The role of human annotators. PloS one 11 (5): e0155036.

Nakov P., Rosenthal S., Kiritchenko S., Mohammad S. M., Kozareva Z., Ritter A., Zhu X. (2016) Developing a successful SemEval task in sentiment analysis of Twitter and other social media texts. Language Resources and Evalua­tion 50 (1): 35—65.

Nielsen F. A. (2011) A new ANEW: Evaluation of a word list for sentiment analysis in microblogs. In arXiv preprint arXiv: 1103.2903.

Ohmura M., Kakusho K., Okadome T. (2014) Social mood extraction from Twitter posts with document topic model. In Information Science and Applica­tions (ICISA), 2014 International Conference on. Pp. 1—4.

Pak A., Paroubek P. (2010) Twitter as a corpus for sentiment analysis and opinion mining. In LREc, Vol. 10, No. 2010.

Pang B., Lee L. (2008) Opinion mining and sentiment analysis. Foundations and Trends® in Information Retrieval 2 (1—2): 1—135.

Pang B., Lee L., Vaithyanathan S. (2002) Thumbs up?: sentiment classifica­tion using machine learning techniques. In Proceedings of the ACL Conference on Empirical Methods in Natural Language Processing. Pp. 79—86.

Ponomareva N., Thelwall M. (2012) Do neighbours help?: an exploration of graph-based algorithms for cross-domain sentiment classification. In Proceed­ings of the 2012 Joint Conference on Empirical Methods in Natural Language Pro­cessing and Computational Natural Language Learning. Pp. 655—665.

Pontiki M., Galanis D., Papageorgiou H., Androutsopoulos I., Manandhar S., AL-Smadi M., Hoste V. (2016) SemEval-2016 task 5: Aspect based sentiment analysis. In ProWorkshop on Semantic Evaluation (SemEval-2016). Pp. 19—30.

Poursepanj H., Weissbock J., Inkpen D. (2013) uOttawa: System descrip­tion for SemEval 2013 Task 2 Sentiment Analysis in Twitter. In SemEval@ NAACL-HLT. Pp. 380—383.

Rosenthal S., Farra N., Nakov P. (2017) SemEval-2017 task 4: Sentiment analysis in Twitter. In Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017). Pp. 502—518.

Saif H., He Y., Alani H. (2012) Semantic sentiment analysis of twitter. The Semantic Web-ISWC 2012. Pp. 508—524.

Schuller B., Knaup T. (2011) Learning and knowledge-based sentiment analy­sis in movie review key excerpts. In Toward Autonomous, Adaptive, and Context-Aware Multimodal Interfaces. Theoretical and Practical Issues. Pp. 448—472.

Serrano-Guerrero J., Olivas J. A., Romero F. P., Herrera-Viedma E. (2015) Sentiment analysis: A review and comparative analysis of web services. Informa­tion Sciences 311: 18—38.

Shalunts G., Backfried G. (2016) Multilingual Sentiment Analysis on Data of the Refugee Crisis in Europe. In DATA ANALYTICS 2016

Sharma A., Dey S. (2013) A boosted SVM based sentiment analysis ap­proach for online opinionated text. In Proceedings of the 2013 Research in Adap­tive and Convergent Systems. Pp. 28—34.

Smailovic J., Grcar M., Lavrac N., Znidarsic M. (2013) Predictive senti­ment analysis of tweets: A stock market application. In Human-Computer Inter­action and Knowledge Discovery in Complex, Unstructured, Big Data. Pp. 77—88.

Sokolova M., Bobicev V. (2009) Classification of Emotion Words in Russian and Romanian Languages. In RANLP. Pp. 416—420.

Steinberger J., Lenkova P., Kabadjov M. A., Steinberger R., Van der Goot E. (2011) Multilingual Entity-Centered Sentiment Analysis Evaluated by Parallel Corpora. In RANLP. Pp. 770—775.

Stieglitz S., Dang-Xuan L. (2012) Political communication and influence through microblogging — An empirical analysis of sentiment in Twitter messages and retweet behavior. In System Science (HICSS), 2012 45th Hawaii Internation­al Conference on. Pp. 3500—3509.

Suchdev R., Kotkar P., Ravindran R., Swamy, S. (2014) Twitter Sentiment Analysis Using Machine Learning and Knowledge-Based Approach. Interna­tional Journal of Computer Applications 103 (4).

Tellez E. S., Miranda-Jimenez S., Graff M., Moctezuma D., Suarez R. R., Siordia O. S. (2017) A Simple Approach to Multilingual Polarity Classification in Twitter. In Pattern Recognition Letters.

Thelwall M. (2013) Heart and soul: Sentiment strength detection in the so­cial web with sentistrength. Proceedings of the CyberEmotions 5: 1–14.

Vsrma S., Vieweg S., Corvey W. J., Palen L., Martin J. H., Palmer M., An­derson K. M. (2011) Natural Language Processing to the Rescue? Extracting” Situational Awareness” Tweets During Mass Emergency. In ICWSM.

Vilares D., Alonso M. A., Gomez-Rodriguez C. (2017) Supervised senti­ment analysis in multilingual environments. Information Processing & Manage­ment 53 (3): 595–607.

Wang H., Can D., Kazemzadeh A., Bar F., Narayanan S. (2012) A system for real-time twitter sentiment analysis of 2012 us presidential election cycle. In Proceedings of the ACL 2012 System Demonstrations. Pp. 115–120.

Wilson T., Hoffmann P., Somasundaran S., Kessler J., Wiebe J., Choi Y, Cardie C., Riloff E., Patwardhan S. (2005) OpinionFinder: A system for subjec­tivity analysis. In Proceedings HLT/EMNLP, Vancouver (BC). Pp. 34–35.

Yessenov K., Misailovic S. (2009) Sentiment analysis of movie review com­ments. Methodology 17: 1–7.

Yussupova N., Bogdanova D., Boyko M. (2012) Applying of sentiment analysis for texts in Russian based on machine learning approach. In Proceedings of Second In­ternational Conference on Advances in Information Mining and Management. Pp. 8–14.

Zhou X., Tao X., Yong J., Yang Z. (2013) Sentiment analysis on tweets for social events. In Computer Supported Cooperative Work in Design (CSCWD), 2013 IEEE 17th International Conference on. Pp. 557–562.

Zhu X., Kiritchenko S., Mohammad S. (2014) NRC-Canada-2014: Re­cent Improvements in the Sentiment Analysis of Tweets. In SemEval@ COLING. Pp. 443–447.



Поступила в редакцию 01.10.2018