Телевизионные измерения в эпоху Big Data: концепции и примеры

Скачать статью
Вартанов С.А.

кандидат физико-математических наук, доцент кафедры эконометрики и математических методов экономики, Московская школа экономики МГУ имени М. В. Ломоносова, г. Москва, Россия

e-mail: sergvart@gmail.com

Раздел: Телевидение и радио

В последнее время одним из актуальных трендов в маркетинговых и медиаисследованиях является все более широкое использование и обработка так называемых «больших данных» (Big Data). В медиаиндустрии Big Data и характерные методы работы с ними находят применение не только в маркетинговых и рекламных проектах, но и в медиаизмерениях. В этом случае одним из важнейших каналов получения информации являются приставки цифрового телевидения (digital set-top boxes), обладающие возможностью передачи данных по каналам обратной связи (return path data, RPD). Использование этих данных позволяет значительно повысить точность измерений телевизионной аудитории, получаемых традиционным методом — на основе пиплметровых панелей. Обзору методов Big Data-ориентированных методов измерения телевизионной аудитории и реальных примеров их использования посвящена настоящая работа.

Ключевые слова: большие данные, измерения телевизионной аудитории, медиаизмерения, цифровое телевидение

Введение

Возрастающее проникновение в нашу повседневную жизнь различных гаджетов, растущая цифровизация всего нашего быта приводят к тому, что практически вся наша деятельность может быть тем или иным образом зафиксирована и сохранена в виде ло­гов тех устройств, с которыми мы взаимодействуем. Речь здесь идет не только о традиционных журналах посещений сайтов в Ин­тернете, которые ведутся любым браузером, или о cookies, по ко­торым можно восстановить почти всю информацию о деятельнос­ти пользователя в Сети. Появление компьютеризированной бытовой техники, способной подключаться к Интернету и запи­сывать диагностическую информацию о любых манипуляциях с ней, появление connected cars, внедрение GPS и ГЛОНАСС едва ли не в каждый смартфон — все это позволяет ежедневно создавать гигантский массив информации о поведении практически любого человека. И более того, даже общение с близкими и коллегами превращается в постоянный поток данных, которые при правиль­но организованном процессе сбора и обработки позволяют делать необходимые выводы о любом человеке.

По оценкам IBM, в 2012 г. в мире ежедневно создавалось более 2,5 эксабайтов (примерно 2,5 миллиарда гигабайт) новой инфор­мации. Сегодня объем ежегодно фиксируемой информации еще выше, ведь количество данных, фиксируемых на Земле, ежегодно удваивается. Все описанные ранее виды данных и представляют собой Big Data в широком смысле (автором термина является Клиффорд Линч, редактор журнала Nature, предложивший его в 2008 г. (Lynch, 2008)).

Все более широкое использование и обработка «больших дан­ных» (калька с big data, прижившаяся в литературе) стали в по­следнее время одними из наиболее актуальных трендов в марке­тинговых и медийных исследованиях. Само по себе понятие «больших данных» в разных источниках определяется по-разному, однако все определения согласованы с концепцией трех V volume, velocity, variety (объем, скорость, разнообразие). В отдельных источниках к ним добавляется и четвертая «V» — veracity (досто­верность). В широком смысле, Big Data - это разнородные нест­руктурированные данные крайне большого объема, увеличение которого происходит ежедневно с большой скоростью.

Очевидно, что с точки зрения социологических и медиаиссле­дований задачи анализа и извлечения таких данных представляют огромный интерес. Кроме того, они могут быть использованы в рамках любых коммуникационных кампаний на любом этапе: как - стратегически - при анализе рыночной ситуации, так и на этапе оценки эффективности (Назаров, Виговская, 2013). Отдельно сле­дует упомянуть таргетирование рекламных обращений и профи­лирование наиболее важной для рекламодателя аудитории, являю­щиеся сегодня, наверное, одними из самых востребованных сфер использования «больших данных».

Профилирование аудитории на основе больших данных в том или ином виде применяется практически во всех проектах, свя­занных не только с маркетинговыми и рекламными исследования­ми, но и с медиаизмерениями. И здесь одним из важнейших кана­лов получения информации являются приставки цифрового телевидения (digital set-top boxes, DSTB или просто STB), облада­ющие возможностью передачи данных по каналам обратной связи (return path data, RPD). Использование этих данных позволяет значительно повысить точность измерений телевизионной ауди­тории, получаемых традиционным методом - на основе пиплме- тровых панелей.

Big Data и традиционные методы ТВ-измерений: синергия вместо взаимоисключения

Литературу, посвященную использованию Big Data, родствен­ных концепций и методов работы, можно разделить на два на­правления. Первое - описание понятия «больших данных» в кон­тексте ТВ-индустрии и применение характерных для нее методов и алгоритмов извлечения информации к данным, полученным от ресиверов цифрового телевидения (set-top boxes, STB) по каналам обратной связи (return path data, RPD). Второе направление затра­гивает вопрос обработки уже подготовленных данных о телесмо­трении на каждом отдельно взятом ресивере для определения про­филей телесмотрения домохозяйств и отдельных зрителей (Chang, Kauffman, Son, 2012)1.

Ряд публикаций, принадлежащих к первому направлению (Вартанов, 2014; Каменская, 2011; Shababb, Taylor, 2005)2, посвя­щен сравнению возможностей, которые предоставляют данные с ресиверов и данные, полученные более привычным путем - с по­мощью пиплметров. В этом плане как российские авторы, так и зарубежные придерживаются единой точки зрения. С одной сто­роны, данные с ресивера обладают большей точностью (длитель­ности сессий можно отслеживать с точностью до секунды) и могут быть доступны мгновенно, в отличие от данных с пиплметров, ко­торые становятся доступны в лучшем случае на следующий день и характеризуют смотрение поминутно. Кроме того, данные с реси­вера дают информацию об использовании дополнительных опций при просмотре (запись, два экрана и т.д.), взаимодействии с инте­рактивными сервисами оператора, дополнительных сервисах (на­пример, VOD). С другой стороны, пиплметровые данные точно ха­рактеризуют зрителей и домохозяйства, в то время как ресиверы неспособны фиксировать какие-либо данные, кроме тех, которые связаны с их использованием.

При всем кажущемся различии исходных данных и способов их обработки, противопоставление двух методик исследования аудито­рии — панельной с помощью пиплметров и обработки Big Data, по­лучаемой с приставки, — было бы неэффективным. Эти два подхода должны применяться вместе и взаимно дополнять друг друга.

Помимо основной цели — измерения и анализа телеаудитории — важной прикладной задачей, которая решается с помощью данных, получаемых с STB, является таргетирование рекламы. Для этого большая часть источников предлагает так или иначе интегрировать базы данных, содержащие информацию о покупках и покупателях, с базами данных с STB. На примитивном уровне подобная интегра­ция выглядит следующим образом. Заинтересованные субъекты (в первую очередь, рекламодатели в лице производителей и продав­цов) на основе данных о совершенных покупках их товара создают профили покупателей. Аналогичные профили создаются на основе информации о телесмотрении для каждого STB и каждой сессии смотрения на нем. Таким образом, становится возможным показы­вать в каждую сессию телесмотрения рекламу тех товаров, профиль покупателей которых наиболее близок профилю текущей сессии. Такое таргетирование предполагается проводить, минуя стадию оп­ределения типа домохозяйства и его основных характеристик. Кро­ме того, профили сессий не обязательно должны соответствовать только одному зрителю, это могут быть агрегированные профили совместного смотрения двух или более членов домохозяйства.

Определенные работы (Chang, Kauffman, Son, 2012) проливают свет и на промежуточную задачу профилирования зрителей: по ха­рактеристикам телесмотрения по данным с ресивера определить характеристики домохозяйства, использующего его, а также по­строить прогнозные профили зрителей на каждую сессию. Таким образом, в дальнейшей части настоящего обзора предполагается описать предлагаемые в литературе алгоритмы решения двух смежных задач. С одной стороны, это задача выделения отдельных сессий телесмотрения на каждом ресивере и построение для этих сессий демографических профилей. В качестве подзадачи сюда входит определение среди всех сессий тех из них, которые соот­ветствуют одному типу смотрения (например, смотрению ТВ од­ним и тем же человеком или одной и той же группой). С другой стороны, для профиля каждой сессии необходимо подобрать наи­более подходящий ей товар с точки зрения историй продаж, и на­оборот.

Return path data: основной тип больших данных в телеизмерениях

Большая часть современных приставок цифрового ТВ обладает возможностью фиксации с точностью до миллисекунд всех собы­тий, происходящих с ней, — связанных как с активностью зрителя (смена канала, изменение громкости, и т.д.), так и с внутренними событиями приставки (смена телепередачи на одном и том же ка­нале, системные события). Таким образом, данные обратной свя­зи, получаемые с приставок, довольно разнородны. Если учесть, что данные о событиях STB снимаются с миллисекундной точно­стью, а диагностическая информация с каждого STB поступает с определенной регулярностью (как правило, не реже, чем раз в пять минут), то при обработке RPD приходится иметь дело с ог­ромным объемом данных. Это позволяет отнести задачи, связан­ные с обработкой данных с STB, к Big Data-задачам.

Опишем подробно, что может регистрироваться приставками, кроме служебной информации, например качество связи и техни­ческое состояние устройства. В первую очередь, записывается и сохраняется вся информация о нажатии кнопок пульта управле­ния приставкой и также кнопок на самой приставке, если они есть (clickstream). Помимо событий низкого уровня вроде нажатий кнопок пульта, отслеживаются и события более высокого уровня. Во-первых, фиксируются моменты включения и выключения приставки. Как правило, моменты включения и выключения теле­визора не могут фиксироваться приставкой за редкими исключе- ниями3. Во-вторых, фиксируется просмотр телеканалов в прямом эфире: номера этих каналов, моменты переключения, передачи, которые шли на этих каналах во время просмотра.

Важной особенностью цифровых приставок является то, что они фиксируют не только линейный просмотр телеканалов, но и отложенный просмотр, и просмотр по запросу. Так, среди данных RPD, как правило, фиксируется просмотр time-shift телепередач с жесткого диска приставки или сервера, а также постановка веща­ния на паузу и последующее возобновление просмотра. Кроме того, многие STB предоставляют данные о просмотре видео по за­просу (video-on-demand, VOD), как со встроенного жесткого ди­ска, так и из Сети с помощью приложений интерактивного ТВ. Также в логах приставок фиксируются другие способы их исполь­зования, например прослушивание радио, просмотр интернет- сайтов через приложения STB, караоке и т.п. Кроме того, некото­рые приставки сохраняют данные о взаимодействии пользователя с меню, навигации по электронной программе передач (EPG), о записи телепередач с эфира, о просмотре в режиме «картинка в картинке» и т.д.

Поскольку данные, получаемые от приставок цифрового ТВ, могут быть собраны со всех абонентов, преимущества их исполь­зования в качестве основы для системы медиаизмерений очевид­ны (естественно, при условии их правильного форматирования, очистки и обработки). Во-первых, размеры потенциальной выбор­ки во много раз превышают размеры любой из существующих па­нелей, используемых при измерении ТВ-аудитории. Более того, в определенных случаях речь может идти о сплошных данных (census level data). Во-вторых, данные STB обладают несравнимо более высоким уровнем детализации, так как позволяют отслежи­вать всю зрительскую активность с точностью до секунды.

«Обратной стороной» всех описанных выше плюсов данных STB является тот факт, что они характеризуют использование только самого STB и представляют собой в лучшем случае теле­смотрение, измеренное «в приставках». Иными словами, если оператор цифрового ТВ зафиксировал, что из 1 000 установленных приставок 500 были включены на канале N, то из этого не следует, что этот канал смотрел каждый второй зритель или даже каждая вторая семья. Приставка не в состоянии зафиксировать не только кто именно смотрел телевизор в каждый момент времени, но и то, сколько всего человек было перед экраном. Более того, ситуация, когда зритель выключил ТВ и перестал смотреть что-либо, но за­был выключить приставку, будет воспринята как продолжающаяся сессия смотрения последнего включенного канала. Также данные с STB не могут учитывать другую аппаратуру, подключенную к те­левизору (DVD-плеер, видеомагнитофон), как и наличие других телевизоров в домохозяйстве и характеристики их смотрения. Та­ким образом, RPD в исходном виде не дает возможности судить об аудиторных показателях в традиционном смысле.

Кэппинг как основной метод очистки и подготовки данных обратной связи

Чтобы привести данные STB в вид, пригодный для определения различных аудиторных показателей, надо решить последовательно две задачи. Во-первых, необходимо превратить clickstream-данные в статистику включений телевизора. Иными словами, необходимо избавиться от ситуации, когда ресивер был включен, но телевизор был выключен. Во-вторых, по уже очищенным от подобных ситуа­ций данным необходимо получить оценку характеристик аудито­рии: кто именно был перед телевизором, сколько было зрителей и каковы их социально-демографические показатели.

Решение первой задачи связано с выделением сессий — проме­жутков времени, в течение которых телесмотрение имело постоян­ный с точки зрения какого-либо параметра характер. В частности, интервал, в течение которого приставка была непрерывно включе­на, является сессией включения. В свою очередь период, в течение которого на приставке был выбран определенный канал, — сессия смотрения этого канала. Зная время и длительность всех сессий смотрения, можно рассчитать все требуемые статистические пока­затели аудитории ТВ.

Согласно данным различных пиплметровых панелей (напри­мер, британской BARB или российской ТВ-панели TNS), большая часть сессий имеет небольшую длину. Так, Шабабб и Тейлор (Sha- babb, Taylor, 2005) приводят данные, полученные на основе наблю­дения за 500 домохозяйствами панели BARB, оснащенными циф­ровыми приставками. Согласно полученным ими результатам, среди всех сессий, на протяжении которых на телевизоре был включен один и тот же канал (сессия типа «ТВ-канал»), доля длинных сессий (дольше 60 минут) не превышает 5%.

Из приведенной статистики следует самый простой и в то же время самый распространенный способ борьбы с «фиктивным» телесмотрением — это обрезка длинных сессий (capping, кэппинг). Идея метода крайне проста: определяется пороговое значение максимальной длительности сессии смотрения, после чего все сессии, длина которых превышает данное значение, «обрезаются» до этой длительности. На рисунке 1 приведен результат примене­ния к данным STB из панели BARB простейшего кэппинга с поро­гом в 45 минут. Все сессии смотрения длиной более 45 минут со­кращались, и вместо момента окончания, зафиксированного STB, фиксировался момент через 45 минут после начала сессии. Подоб­ная процедура позволила в значительной степени приблизить зна­чение HUT, полученное на основе RPD, к реальному значению HUT в тот же момент времени (см. рис. 1).

         06:00 - 09 30- 12:00- 14:00- 16:00 - 18:00 - 20 00 09:30 12:00 1400 16:00 1SOO 20:00 22:30

Рисунок 1. Доля домохозяйств с включенным ТВ (HUT) согласно «сырым» STB-данным,
данным пиплметров и STB-данным после кэппинга с порогом 45 мин.


Следующим шагом после проведения кэппинга является уже профилирование данных, получаемых с STB, с учетом уже имею­щихся результатов исследований. Под профилированием данных с STB понимаются две операции. Во-первых, это социально-демо­графическое профилирование домохозяйства, которому принад­лежит приставка цифрового ТВ. Очевидно, что большая часть вла­дельцев приставок не являются участниками проектов по измерению медиапотребления (дневниковых, пиплметровых), и нам apriori ничего не известно об их социально-демографических характеристиках.

Во-вторых, даже после профилирования домохозяйства остает­ся открытым вопрос о том, кто находится перед телевизором в мо­
менты включения ресивера. Члены домохозяйства могут смотреть телевизор в любых комбинациях, и техническая возможность оп­ределения зрительского состава отсутствует. Конечно, некоторую информацию можно извлечь из RPD от ресиверов и без особой процедуры профилирования. Например, оценить в первом при­ближении общую аудиторию интересующих нас эфирных собы­тий. Конечно, не зная точного количества зрителей, нельзя судить о точном количестве контактов, однако возможно провести оцен­ку на уровне домохозяйств (HUT).

Алгоритмам кэппинга и методам борьбы с false positives- данными посвящена также работа Peng Wang “Modeling TV Rating by Channel Switching in the Set-Top Box”4. Основная задача работы ставится следующим образом. Имеется набор данных, описываю­щий владельцев STB, являющихся также членами панели NPM. Возможно ли, обладая лишь данными пиплметров, построить ма­тематическую модель, определяющую рейтинги эфирных событий на основе только данных от STB (т.е. корректно определять интер­валы реального телесмотрения)? И можно ли применить такую модель не только к данным панельных STB, но и ко всей генераль­ной совокупности — всем домохозяйствам США с STB?

2.JPG














Рисунок 2. Длительность непрерывной сессии просмотра и доля реального телесмотрения

Рассматриваемый в этой работе подход к кэппингу основан на анализе сессий включения ресивера — интервалов между его включениями и выключениями. В каждый момент такой сессии вероятность «обнаружить» зрителя перед телевизором зависит от двух параметров: времени, которое прошло с момента включения ресивера, и общей длительности сессии. На рисунке 2 приведены 6 совокупностей точек на плоскости «Время работы STB» vs «Ве­роятность реального смотрения» (purity). Совокупность точек одного и того же цвета соответствует одной сессии телесмотре­ния (цвет соответствует длительности сессии работы STB). Коор­дината x показывает время, прошедшее от включения STB, а ко­ордината у — долю раз, когда на соответствующей минуте фиксировалось реальное телесмотрение (респондент реально присутствовал у ТВ). Например, розовая точка (130; 0.42) означа­ет, что среди всех ситуаций в панели, когда STB был непрерывно включен в течение 200 минут, только в 42% случаев на 130 минуте включенному STB соответствовало реальное телесмотрение. 

3.JPG

AdjustType: 1 Simple 2 Adjusted6

Рисунок 3. Графики простого и скорректированного двойного распределения Вейбулла

Как доказано в обсуждаемой работе, форма эмпирических рас­пределений зрительского внимания с высокой точностью соответ­ствует форме экспоненциального вейбулловского распределения. Примерный график такого распределения приведен на рисунке 3. Для того, чтобы это распределение можно было использовать для описания интересующей нас характеристики, проводилась его нормализация: значения purity в моменты включения и выключе­ния STB должны равняться 1.

4.JPG

Рисунок 4. Аппроксимация зависимости реального смотрения от длительности сессий
с помощью скорректированного экспоненциального распределения Вейбулла

Для любой длительности сессии работы STB на основе пипл- метровых данных можно построить соответствующее нормализо­ванное экспоненциальное распределение Вейбулла, показываю­щее вероятность реального телесмотрения (см. рис. 4). После этого рейтинг каждого эфирного события в рамках сессии вклю­чения определяется довольно просто. Считается, что зритель при­сутствовал перед ТВ, если вероятность реального смотрения на со­ответствующем STB в момент эфирного события больше 0.5. В противном случае считается, что перед ТВ никого не было, и со­ответствующего контакта события с представителем аудитории не было. Дополнительный результат, который приводится в работе, заключается в том, что разработанная двойная Вейбулловская мо­дель оказалась более точной с точки зрения определения рейтин­гов, чем данные панели NPM (Nielsen Peoplemeter Panel).

Подход Nielsen: Data fusion и методы моделирования телезрителей

О том, как принято работать с данными, получаемыми с ресиве­ров, можно судить по отчетам и пресс-релизам крупнейших медиа- метрических компаний мира. В первую очередь это Nielsen, TNS, Rentrak и Kantar Media. Именно эти компании в последнее время наиболее активно развивают направление STB-исследований. При­чем к данным есть два подхода: интеграция с другими базами дан­ных, описывающими те же домохозяйства (например, данные пере­писей, данные покупок и т.д.), и моделирование отсутствующих данных на основе различных панельных исследований.

Первый подход — data fUsion, интеграция баз данных, описываю­щих одни и те же домохозяйства, но отражающих характеристики, описание которых получено в результате разноплановых исследова­ний. Прежде всего речь идет об интеграции данных государствен­ных органов, ответственных за статистику, и данных о покупках и транзакциях, совершаемых членами домохозяйства. В этом случае данные часто объединяются на основе адресов и ZIP-кодов или де­мографических характеристик (если они присутствуют).

Как поясняется в брошюре “Introduction to Nielsen Data Fu­sion”5, задача интеграции заключается в том, чтобы создать взаим­нооднозначное соответствие между элементами первой и второй баз данных исследований на основе общих характеристик. Под ними в Nielsen понимают географические и демографические дан­ные, данные о медиапотреблении и т.д. В брошюре приводится пример подобной интеграции между данными ТВ-панели Nielsen peoplemeter и данными о покупках.

В патенте Питера Доу6 (Peter Campbell Doe, Nielsen SVP по ин­теграции данных) описываются методы и алгоритмы, приписыва­ющие всем владельцам цифровой приставки, подлежащим мони­торингу, демографические характеристики на основе данных по участникам панели. На вход подобные алгоритмы получают две базы данных, представляющих информацию о телесмотрении двух неравных групп домохозяйств. Меньшая из этих групп представ­ляет собой панельные домохозяйства, о членах которых имеется вся необходимая демографическая информация. Вторая группа представляет собой непанельные домохозяйства, оснащенные только приставкой, и никакой информации о ее демографии (ко­личество членов семьи, их пол, возраст, доход и т.д.) нет.

Ресиверы цифрового телевидения, установленные в домохозяй­стве, имеют возможность отслеживать зрительское поведение и привычки его членов. Тем не менее медиаисследователи и участни­ки рынка не имеют права получать персональные демографические данные членов домохозяйства, за исключением случаев, когда они дают явное и осознанное согласие на это. Таким образом, возможно отслеживать зрительское поведение, «очищенное» от всякой персо­нальной информации: все подобные данные не собираются ресиве­ром, хотя и привязаны к его серийному номеру. В то же время, та­кие параметры, как просматриваемые каналы, время их просмотра, изменение громкости, включение и выключение ресивера, как уже упоминалось ранее, отслеживаются и по обратному каналу переда­чи данных возвращаются провайдеру (return path data).

Использование домохозяйств, выбранных с помощью статисти­ческих и социологических методов построения панелей, позволяет медиаисследователям наблюдать за привычками телесмотрения ин­тересующих групп. Участвующие в панели домохозяйства могут ис­пользовать специальную аппаратуру для фиксации просматривае­мых каналов, времени просмотра и прочих характеристик зри­тельского поведения, в частности, в дополнение к ресиверу они мо­гут быть оборудованы пиплметрами. Комбинация зрительского по­ведения и демографических характеристик в правильно спроекти­рованной панели позволяет экстраполировать наблюдаемые в ней явления (тренды и шаблоны телесмотрения, эффективность рекла­мы) на всю генеральную совокупность.

В основе предлагаемой Питером Доу системы — множество всех домохозяйств с STB, разделенное на две части. Первая часть — это панельные домохозяйства, участники которых дали разрешение на манипуляцию их персональными (социально-демографическими, географическими) данными. Вторая часть состоит из домохозяйств, оснащенных цифровой ТВ-приставкой, но не имеющих пиплметра.

Данные, получаемые от непанельных STB, включают в себя дату и время просмотра каждого телеканала, статус STB (вкл/ выкл), информацию о переключении каналов и изменении гром­кости. Как правило, эти данные включают в себя также серийный номер устройства, однако подобная информация не сохраняется и не учитывается еще на этапе получения данных. В то же время члены панельных домохозяйств раскрывают свой возраст, количе­ство детей, доход, образование, профессию, место жительства, ин­декс и т.д. Вся эта информация добавляется к данным от ресиве­ров, установленных в этих домохозяйствах.

Основной частью описываемой системы является процедура моделирования данных. Эта процедура реализует многоэтапный алгоритм генерации данных о зрителях и вероятностей их нахо­ждения перед телевизором. При этом используются как данные из пиплметровой панели (в первую очередь, социально-демографи­ческие), так и данные, полученные от STB (например, из соответ­ствующей базы данных).

Процедура моделирования данных включает в себя: удаление ошибочных и незначимых сессий, приписывание отсутствующих характеристик и определение вероятностей нахождения телезри­телей перед экраном. Процедуры удаления, приписывания харак­теристик и определения вероятностей используют данные о теле­смотрении панельных и непанельных домохозяйств, в то время как менеджер отчетов оперирует данными, полученными только от процедуры определения вероятностей, что является средством организации уже обработанных данных.

Кратко опишем каждый из компонентов процедуры моделиро­вания данных. Процедура кэппинга представляет собой примене­ние одного или нескольких правил, позволяющих по их результа­там применения удалить часть сессии телесмотрения (или всю сессию целиком). Правила удаления и сохранения сессий, осно­ванные на показателе удаления, опираются на эмпирические на­блюдения, получаемые с помощью пиплметров. Другие факторы, которые также учитываются при определении показателей удале­ния и порогов длительности сессий, включают в себя: время года, тип медиаконтента и так далее.

В случае, если длительность сессии превышает пороговое зна­чение, то данные о ней редактируются. Помимо метода полного кэппинга, приведенного в качестве примера ранее, используются также методы частичного кэппинга. Метод полного обрезания сессий обладает одной неприятной особенностью, которая заведо­мо «огрубляет» результат обработки данных. Речь идет о том, что аномально долгие сессии обрезаются целиком. В то же время представляется очевидным, что в последние минуты любой сес­сии, предшествующие ее окончанию, имеет место присутствие зрителя перед экраном (хотя бы для того, чтобы выключить STB или переключить канал). На этом предположении основаны мето­ды частичного кэппинга, главная идея которых заключается в том, что вместо обрезки всего «хвоста» сессии вырезается только часть ее времени из середины. Таким образом, одна большая сессия по­сле применения этого метода превращается в две более коротких, при этом начало первой из них и конец второй совпадают с нача­лом и концом исходной сессии.

Следующим шагом является приписывание отсутствующих ха­рактеристик непанельным STB. Для интеграции данных STB и па­нелей домохозяйств, оборудованных пиплметрами, применяются методы data fusion (DF). Фактически DF — это процесс, объединяю­щий две базы данных на уровне их элементов на основе их близости по определенному набору общих переменных этих баз. В частности, применительно к рассматриваемому случаю соединения данных STB и пиплметров объединение может происходить на основе пат­тернов телесмотрения, включающих в себя любые проявления те- лезрительской активности. Происходит это следующим образом. Для каждого ресивера из числа непанельных проводится анализ особенностей его использования, в результате которого выделяются несколько основных паттернов связанного с ним телесмотрения. Среди панельных домохозяйств находится то, для которого на пре­дыдущем этапе в рамках аналогичной процедуры анализа телесмо­трения был выделен набор паттернов, наиболее близкий к получен­ному с проанализированного непанельного ресивера. Далее социально-демографические характеристики этого панельного до­мохозяйства переносятся в базу данных непанельных ресиверов и приписываются домохозяйству, использующему рассматриваемый ресивер. В ходе интеграции данных такие характеристики, как на­циональность, родной язык, расовая принадлежность, приписы­ваются одновременно, что сохраняет корреляцию между ними и позволяет избежать несоответствия данных в объединенной базе.

DF дает возможность рассматривать одновременно произволь­ное количество переменных, что позволяет нам далее говорить обобщенно о «паттернах смотрения» и «демографических характе­ристиках». Наличие взаимосвязи между этими группами характе­ристик очевидно: паттерны телесмотрения могут хорошо предска­зывать демографию, а демография — паттерны. Тем не менее традиционные реализации процессов DF в других сферах (напри­мер, проект объединения Nielsen NPM + MRI — пиплметровые данные и данные о читательской активности) обычно используют демографические характеристики для определения зрительского поведения групп зрителей и отдельных индивидов. В случае теле­смотрения процесс DF происходит в обратном порядке: методы, описываемые в работе Питера Доу, приписывают демографиче­ские характеристики данным о зрительском поведении.

Уже подготовленные и очищенные данные о зрительском пове­дении обрабатываются с целью распознать (или сформировать вновь) в них хотя бы один из заранее определенных паттернов зрительского поведения. Полученный паттерн затем сравнивается с паттернами поведения, хранящимися в базе данных. Они могут быть распознаны на основе библиотеки, которая содержит неко­торое количество «шаблонных» паттернов, заранее определенных пользователем (программистом, социологом) на основе данных, получаемых с пиплметров. Извлеченные из данных STB и распоз­нанные паттерны зрительского поведения поступают на вход в подпрограмму-классификатор типов смотрения участников пипл- метровой панели. Эта подпрограмма просматривает базу данных пиплметров в поисках близких к полученным из данных STB пат­тернов, наблюдавшихся в панельных домохозяйствах. Когда такие домохозяйства находятся, их характеристики (в первую очередь, социально-демографические) передаются в подпрограмму интег­рации данных. Эта подпрограмма объединяет обрабатываемые базы, находя общие переменные. Как правило, набор таких пере­менных включает в себя количество телевизоров в домохозяйстве, общее время просмотра ТВ, время просмотра конкретных кана­лов, программ конкретных жанров, а также время просмотра, при­ходящееся на отдельные интервалы дня.

Совпадения по переменным связи позволяют приписывать не­панельным домохозяйствам соответствующие характеристики. На первой итерации процесса интеграции данных определяется тип домохозяйства, которому принадлежит соответствующий STB. Тем не менее более точной информации о том, кем были смотрев­шие каждую передачу в сессии зрители, на этом этапе нет. Для того, чтобы это определить, производится следующая итерация, позволяющая приписывать каждой сессии все более детальные ха­рактеристики. При этом те характеристики, которые на предыду­щей итерации приписывались, на последующей воспринимаются уже как переменные связи.

Приписанные каждому STB характеристики домохозяйства и приписанные каждой сессии характеристики зрителей сохраняют­ся в соответствующей базе данных и передаются на вход процеду­ры определения вероятностей смотрения. На основе данных о сес­сиях смотрения определяются дни и части дня, когда эти сессии имели место. При этом каждый интервал времени связан с инфор­мацией о зрительском поведении, основанной на интегрирован­ных данных. Для каждого домохозяйства рассчитываются средние значения количества зрителей в разные дни недели, а также сред­ние значения количества зрителей в каждое время суток (утром, днем, в прайм-тайм и т.д.). Пример: на основе пиплметровых дан­ных калькулятор определяет, что каждый будний день с 16.00 до 18.00 в домохозяйстве рассматриваемого типа включены два теле­визора, размер этого домохозяйства — 3 человека и в среднем на 1 ТВ приходится по 1,8 зрителя.

На основе этих значений, а также на основе приписанных дан­ных о социально-демографических характеристиках предполагае­мых зрителей рассчитываются вероятности смотрения ТВ с помо­щью данного ресивера зрителями в зависимости от их пола, возраста, жанра передачи и времени суток. После завершения рас­чета вероятностей смотрения для всех предполагаемых членов до­мохозяйства полученные значения умножаются на поправочный коэффициент, равный отношению среднего числа зрителей дан­ного ТВ в каждый промежуток времени к сумме всех вероятностей для этого промежутка времени. Уточненные значения вероятно­стей смотрения, наряду с приписанными характеристиками домо­хозяйств и социально-демографическими характеристиками пред­полагаемых зрителей, дальше могут использоваться для построения отчетов и являются финальным результатом работы всей подпрограммы восстановления данных STB.

Работа Питера Доу, в которой описан метод интеграции данных от приставок цифрового ТВ и пиплметровых панелей, является одной из немногих опубликованных в открытом доступе, которая бы содержала описание всей методики слияния данных зритель­ского поведения панельных и непанельных домохозяйств. Другие работы того же автора (написанные как индивидуально, так и в соавторстве) представляют собой различного рода презентации и пресс-релизы, описывающие результаты моделирования показате­лей STB с помощью данных панелей. Очевидно, что эти результа­ты основаны на моделях и методах, родственных приведенным в указанном патенте. Так, в докладе Patrick Dineen & Pete Doe “Hy­brid measurement goes local”7 интересующий нас вопрос (модели­рование профилей телезрителей STB на основе данных пиплме- тровых панелей) рассматривается как один из примеров гибридных методов измерений. В этой работе обосновываются причины, по которым интересующий нас способ измерения ауди­тории является необходимым направлением развития медиаизме­рений в целом. Дело в том, что с ростом фрагментации аудитории относительная ошибка растет, и повышается вероятность зафик­сировать нулевой рейтинг у тех эфирных событий, которые смо­трело не слишком большое количество зрителей (так называемая проблема «длинных хвостов»). Есть вероятность, что среди па­нельных домохозяйств вообще никто не имел контактов с этим со­бытием, в то время как в генеральной совокупности оно набрало пусть и небольшой, но ненулевой рейтинг.

В то же время, отмечают авторы, панельные измерения облада­ют высокой репрезентативностью, и демография всех участников измерений исследователям известна, что приводит к низкому уровню смещения (bias). Данные STB являются сплошными (cen­sus data), однако не связаны с демографией и дают существенное смещение за счет частого появления феномена false positives — си­туаций «STB on — TV off» (рис. 5).

vest-03-17-37-57.png


Рисунок 5. Рейтинги всего ТВ (слева) и отдельной передачи (справа), построенные по сырым данным STB (3), обработанным данным STB (2) и данным пиплметровой панели NPM (1)

Приведенные на рисунке 5 графики характеризуют точность работы алгоритма кэппинга, применяемого в Nielsen и частично отображенного в патенте Питера Доу в рамках описания процеду­ры удаления сессий. Из представленных графиков следует, что значения рейтингов, определяемых с помощью вышеизложенных методов, очень близки к значениям, полученным с NPM-панели. В то же время, за счет того, что аудитория STB составляет почти 2/3 всех домохозяйств США, величины абсолютной и относитель­ной ошибок существенно ниже.

Выводы

В перспективе описанные выше методы интеграции больших данных и традиционных пиплметровых панелей позволят предо­ставлять результаты совместного RPD-исследования под интер­фейсом привычного и понятного рынку программного обеспече­ния. Это, естественно, позволит рассчитывать все необходимые медиаиндустрии аудиторные показатели и строить медиапланы. Конечный продукт по своим качественным характеристикам ни­чем не будет уступать пиплметровым измерениям, а в чем-то мо­жет и превосходить их. Более того, если судить по опыту западных стран (в первую очередь, Великобритании и США), методы анали­за данных обратной связи, описанные в настоящем обзоре и род­ственные им, в перспективе станут основой для новой «валюты» на рынке телерекламы. Подобная «валюта» будет лишена типич­ных для «старых» панельно-пиплметровых моделей недостатков, связанных с малым размером панели. В частности, это позволило бы избавиться от проблемы «длинных хвостов». Как бы ни были высоки качество построения панели и точность репрезентации ею генеральной совокупности, телесмотрение каналов с малыми рей­тингами часто может не быть зафиксировано традиционными ме­тодами. При этом наличие сплошных данных обратной связи, в перспективе покрывающих всю генеральную совокупность, по­зволило бы получить информацию о зрителях даже тех каналов, размер аудитории которых может исчисляться лишь тысячами или даже сотнями домохозяйств. Очевидно, что с привычными разме­рами пиплметровых панелей (например, панель TNS в России имеет размер порядка 2500 домохозяйств) вероятность «поймать» такое телесмотрение и учесть его при составлении телевизионных рейтингов довольно невелика.

Тем не менее, несмотря на все очевидные достоинства, RPD- исследования пока не могут заменить общенациональные телеви­зионные измерения до тех пор, пока на рынке существует анало­говое телевещание. Поэтому на данном этапе развития медиаиндустрии России (как, впрочем, и многих других стран мира) полностью перейти на гибридные методы телевизионных измерений (пиплметры + RPD) пока невозможно. Однако ис­пользование больших данных о телесмотрении абонентов уже су­ществующих операторов цифрового ТВ даже сейчас позволяет су­щественно повысить точность пиплметровых измерений.

Примечания

Doe P. C. Methods and Apparatus to Model Set-Top Box Data. Patent US 20080300965 A1

Roberts A. C., Wheatley M. A., Wilcox P. (2011) Analyzing viewing data to estimate audi­ence participation. Patent US 7954120 B2; Dineen P., Doe P. C. Hybrid Measurement Goes Local. Audience Measurement 6.0 Symposium. June 2011.

3 Технически это возможно только в том случае, когда приставка подключена к телевизору по HDMI-кабелю.

4 Wang P. Modeling TV Rating by Channel Switching in the Set-Top Box (STB). Available at: http://pengstats.macssa.com/download/notes/STB%20at%20Nielsen.pdf

5  Introduction to Nielsen Data Fusion. Available at: http://www.nielsen.com/content/dam/corporate/us/en/docs/solutions/Nielsen-Introduction-to-Data-Fusio..., The Nielsen Company, 2009.

Doe P. C. Methods and Apparatus to Model Set-Top Box Data. Patent US 20080300965 A1.

7 Dineen P., Doe P. C. (2011) Hybrid Measurement Goes Local. Audience Measurement 6.0 Symposium. June 2011.

Библиография

Вартанов С.А. Big Data в измерении телевизионной аудитории: мето­ды очистки и обработки данных цифровых STB // Теория и практика медиарекламных исследований. Выпуск 4. Аналитический центр “Видео Интернешнл”, ООО “НИПКЦ Восход-А Москва, 2014. С. 151—167.

Каменская М. Измерения аудитории цифрового телевидения // Теле­Спутник. 2011. С. 58—60.

Назаров М.М., Виговская Е.Г. «BIG DATA»: концепт и его приложения к практике маркетинговых коммуникаций // Интернет-маркетинг. 2013. № 5.

Chang R. M., Kauffman R. J., Son I. (2012) Consumer Micro-Behavior and TV Viewership Patterns: Data Analytics for the Two-Way Set-Top Box. In Proceed­ings of the 14th Annual International ACM Conference on Electronic Commerce. Pp. 272–273.

Lynch C. (2008) Big Data: How do your data grow? Nature 455 (7209): 28-29.

Shababb G., Taylor A. (2005) From set top meters to set top boxes. Audi­ence measurement for the digital world. In WAM - Worldwide Audience Mea­surement 2005 - Cross Media.


Поступила в редакцию 04.03.2017