Как ИИ упрощает и автоматизирует работу стриминговых сервисов

Алексей
Арефьев
директор по развитию продукта и технологий онлайн-кинотеатра KION

Андрей
Дугин
руководитель группы видеоаналитики компании MTS AI

07.12.2023

Онлайн-кинотеатры и различные стриминговые сервисы активно используют искусственный интеллект для выполнения собственных бизнес-задач и разработки нового функционала для пользователей. ИИ-решения уже интегрированы в Netflix, Hulu, Spotify, YouTube, TikTok и другие крупнейшие сервисы этого рынка.

Алгоритмы машинного обучения исследуют историю просмотров пользователей, их предпочтения, привычки и коммуникацию с другими зрителями. На основе этих данных ИИ может рекомендовать им новый фильм или сериал. В этом помогает аналитика жанров и форматов с самыми высокими и низкими рейтингами, а также данные о том, в какие дни публикация контента приносит наибольшее число просмотров.

Главная цель ИИ-фичей - увеличивать life-time пользователей и делать просмотр контента более комфортным. Кроме того, применение ИИ и ML помогает бизнесу экономить большое количество ресурсов. Например, благодаря возможности автоматической генерации постеров или модерации контента можно сэкономить тысячи рабочих часов сотрудников.

Об этих и других кейсах использования ИИ для стриминговых сервисов рассказывает руководитель группы видеоаналитики компании MTS AI Андрей Дугин и директор по развитию продукта и технологий онлайн-кинотеатра KION Алексей Арефьев.

Распознавание актеров в кадре

Распознавание актеров - привычная и любимая зрителями функция. Поставив видео на паузу, зритель может сразу узнать имя актера и получить доступ к его фильмографии. Чтобы научить ИИ узнавать актеров, разработчикам нужно сначала получить у онлайн-кинотеатра доступ к фильму и имена актеров, которых необходимо найти в кадре. В ответ нейросеть формирует .json-файл с разметкой, в которой указано время каждого появления актера в кадре и границы, по которым лицо актера на паузе обведут в рамочку.

Сначала разработчики создают подборку фотографий актера из поисковых сервисов, после чего удаляют из нее очевидно неподходящие варианты - например, изображения других людей или на которых более одного человека. Далее за дело берется платформа видеоаналитики, которая формирует векторы-дескрипторы лиц на фотографиях и объединяет похожие в кластеры. Если в кластере больше всего изображений, значит, он больше всего соответствует нужному актеру.

Фильм или сериал, в котором необходимо найти актеров, также покадрово анализируется через платформу. Она получает векторы-дескрипторы всех людей, которые появляются в видеозаписи, после чего система сопоставляет их с распознанными лицами актеров из кластеров.

Эта функция позволяет зрителям активно пополнять свою синематеку, чаще возвращаться в сервис и проводить в нем больше времени за просмотром отложенных фильмов.

Генерация постеров

Когда пользователь хочет посмотреть в онлайн-кинотеатре сериал, он сначала выбирает сезон, после чего видит список серий с текстовым описанием и характерным кадром. Этот кадр к каждой серии и называется постером. Создание ярких и привлекательных обложек для каждой серии сериала - задача непростая. Ранее для выбора постера сотрудникам онлайн-кинотеатров приходилось отсматривать каждую серию и выбирать наиболее подходящее изображение. В среднем на выбор одного постера уходило примерно в 10 раз больше времени, чем длится сама серия.

С помощью искусственного интеллекта и алгоритмов машинного обучения можно значительно сократить время работы сотрудников, потраченное на подбор постера для фильмов и сериалов, полностью автоматизировав этот процесс.

ИИ-решения для генерации постеров работают в несколько этапов. На первом из них искусственный интеллект выбирает "кандидатов" в постеры - для этого нейросеть отбирает все статичные кадры (которые почти не меняются около трех секунд), потому что в них оператор на мгновение фиксирует сцену, а актер - эмоцию. В среднем из 170 тысяч кадров в фильме (или почти вдвое меньше в сериях) нейросеть получает 150-300 кадров, которые переходят на следующий этап.

На втором этапе все отобранные материалы сводятся в ролик, в котором нейросеть ищет кадр, соответствующий всем требованиям идеального постера. В первую группу критериев входят эстетические параметры: соблюдение правил композиции, открытые глаза, ярко выраженные эмоции. Учитываются и стилистические критерии, основанные на примерах традиционных постеров: наличие главного героя эпизода крупным планом, кадр с важным сюжетным событием и т.д. Также искусственный интеллект проверяет отобранные кадры на наличие запрещенного контента и соответствие правилам онлайн-платформы.

Дизайнеры онлайн-кинотеатра могут получать от нейросети не только вариант идеального постера, но и еще до 300 изображений. Их в дальнейшем используют для подготовки альтернативных постеров, чтобы бороться с баннерной слепотой (когда пользователь привыкает к схожим постерам и ему нужно показать что-то новое).

Точность работы алгоритмов, помогающих создать постеры, сегодня превышают 90%. Помимо этого, использование нейросетей значительно сокращает ручной труд и финансовые расходы на него, а также снижает количество ошибок из-за человеческого фактора, когда постер не нравится зрителям.

Автоматическая модерация контента

Количество контента, загружаемого пользователями на стриминговые сервисы, исчисляется годами по длительности, петабайтами по размеру и миллионами по количеству. Конечно, силами даже очень большого отдела модераторов отсмотреть все это невозможно.

Однако с помощью ИИ можно автоматизировать процесс поиска запрещенного контента на видео, такого как реклама азартных игр, употребление алкоголя и запрещенных веществ.

Для этого используются мультимодальные языковые модели - например, Dino. Они уже обучены находить предметы на изображении в кадре и способны распознавать до 70% существующих объектов без дополнительного обучения. Достаточно "спросить" нейросеть, что она видит в кадре, и уточнить, есть ли в нем тот или иной запрещенный контент. LLM-модель дает бинарный ответ (да или нет) и указывает степень уверенности в нем.

Системы модерации контента могут распознавать запрещенный контент с точностью свыше 90% за несколько секунд, что позволяет отсеять большую часть видео без нарушений. Таким образом, сотрудники могут отсматривать только трансляции, потенциально нарушающие правила сервиса. Финальное решение о принятии мер остается за модераторами: они могут блокировать все подозрительные записи или же проверять только стримы, в которых нейросеть с высокой степенью уверенности указывает на запрещенный предмет.

Super Resolution для архивных фильмов

Онлайн-кинотеатры сталкиваются с тем, что им нужно искусственно повышать разрешение видео. Это актуально и для старых фильмов, и для новых, поступающих от правообладателей в формате SD.

Для улучшения качества изображения можно также использовать нейросети. Они будут дробить пиксели исходного кадра на несколько частей, а затем подбирать для них наиболее подходящие по цвету фрагменты изображения. Также нейросеть способна автоматически распознавать объекты в кадре и дорисовывать недостающие детали и пиксели так, чтобы они вписывались в общее изображение. Благодаря системам Super Resolution разрешение увеличивается в два-четыре раза: SD-фильмы можно конвертировать в Full HD, а 2K-фильмы - в 4K.

Нейросеть анализирует сразу пять кадров: центральный, а также два кадра до и после него. После ML-модель выполняет алгоритмическое увеличение центрального кадра, а также добавляет детали из соседних кадров. Для этого она рассчитывает движение объектов в соседних кадрах и пытается восстановить их в центральном кадре - или просто объединить кадры, чтобы повысить детализацию.

При этом улучшенное изображение нравится зрителям. Разработчики MTS AI провели внутреннее исследование, в рамках которого большинство респондентов подтвердили улучшение качества изображения. 54% опрошенных при просмотре видео с большим количеством деталей отметили, что им больше нравятся улучшенные кадры. Еще 52% зрителей подчеркнули, что цвета и краски на обработанных кадрах стали ярче, а 64% считают, что обработанное видео лучше передаёт холодные цвета.

Пропуск титров и заставок

Пропуск титров и заставок - бенчмарк современных онлайн-кинотеатров. Ранее титры размечали вручную, однако такой подход предполагает большие временные затраты и требует дополнительных ресурсов - бюджета, квалифицированных сотрудников и контроля со стороны менеджеров. С помощью ИИ один сезон сериала можно обработать в три-пять раз быстрее.

Для того чтобы у онлайн-кинотеатра появилась функция пропуска титров, разработчикам нужно проделать непростую работу и натренировать ИИ размечать видео. Сначала нейросеть необходимо обучить распознавать логотипы киностудий, опенинги сериалов и оригинальные заставки к каждой серии, титры, а также дополнительные творческие вставки - например, как у Бондианы и фильмов Marvel.

Прежде всего подобные системы ищут в фильмах и сериалах совпадение по базе типичных заставок от киностудий разных лет и стран - для этого используется механизм математического хеширования, чтобы сопоставить числовое значение архивных заставок с фрагментами анализируемого фильма или сериала. Затем нейросеть определяет все потенциальные заставки по множеству критериев: текст на черном фоне, анимационные ролики с творческим монтажом и т.д.

Чтобы исключить возможность ошибки, отобранные фрагменты видео обычно проходят множество фильтров - в частности, по продолжительности (заставка не может быть короче 5 секунд и длиннее 8 минут) и наличию текста (в заставке хотя бы раз должна быть какая-либо подпись). При завершении разметки система с помощью хеширования уточняет границы заставок, чтобы при перемотке зритель попал к началу сюжетной сцены. Сегодня успешность распознавания титров и заставок нейросетью достигает 90%.

Исследование показало, что после внедрения автоматической разметки время просмотра контента на компьютерах, телевизорах и других широких экранах выросло на 3,3% - дома люди дольше смотрят сериалы, если им предлагать пропускать заставку и титры, а также автоматически запускать новую серию.

Подбор места для рекламы

Модель монетизации некоторых онлайн-кинотеатров предполагает вставку рекламных блоков в фильмы и сериалы. Очевидно, платформы заинтересованы, чтобы ролики не вызывали у пользователей раздражение.

Для этих целей используются AVOD-детекторы (advertising video on demand) - они ищут наиболее подходящие места для рекламного блока. Такими ИИ считает моменты на границе различных сцен, когда действие переносится в другую локацию и заканчивается логический этап повествования, при этом реклама не должна прерывать диалог героев. Также нейросеть использует алгоритм VAD (voice activity detector) - он проверяет, что в момент изменения сцены не звучит чья-либо речь, чтобы не наложить на нее рекламный блок.

Сформированный список из подходящих для рекламы фрагментов фильма обрабатывается в соответствии с техническим заданием от заказчиков. Обычно они указывают приоритетное время размещения рекламы - например, на 15-й или 20-й минуте фильма. После обработки ИИ уточняет подходящее по всем критериям место вставки и направляет заказчику.

По оценкам участников рынка, удачное расположение рекламы может не только повысить лояльность зрителей, но и увеличить годовую выручку от рекламы на 10%.

Как ИИ упрощает и автоматизирует работу стриминговых сервисов

Распознавание актеров в кадре

Генерация постеров

Автоматическая модерация контента

Super Resolution для архивных фильмов

Пропуск титров и заставок

Подбор места для рекламы

На МИДе шапка горит. Министерство иностранных дел объяснило проблемы России в МСЭ действиями недругов

Темпы роста финансовых показателей "Яндекса" замедлились

Цифровые ассистенты помогают онкологам

У "МегаФона" появится транкинг на базе сети LTE

В Госдуму повторно внесут законопроект о регулировании майнинга

Банк России может протестировать видеоидентификацию для трансграничных платежей

В Вологодской области планируют использовать нейросеть для оценки состояния дорог

Собирающие персональные данные россиян компании получат поддержку от новой ассоциации

В агротех придут большие данные и блокчейн-технологии

Искусственный интеллект модифицировал медицину

"МегаФон" создал интеллектуальную логистическую систему для промышленных компаний

ОДК разрабатывает систему проектирования деталей авиадвигателей из полимерных композитов

Рыбинская ГЭС внедрила дистанционное управление распределительными устройствами

2ГИС представил маршруты на электричках и сверхдетальные дороги

Банк ДОМ.РФ протестировал B2B-переводы через СБП

АКБ "Абсолют банк" и компания "Аладдин Р.Д." раскрыли карты информационной безопасности

Безоблачность России не грозит

Российский ИТ-разработчик VESNA рассказал про реализованные кейсы для промышленности

Выручка Linx по облачному направлению в 2023 г. увеличилась на 51%,

Российский центр научной информации переходит на BI-платформу Insight

Почти половина пользователей предпочитают рассылки от компаний в мессенджерах

СКБ Контур приобрел сервис аналитики и автоматизации коммуникаций с клиентской базой Scena.one

Момент истины: импортозамещение "под нагрузкой"

Naumen Contact Center — российская платформа контакт-центра enterprise-уровня для миграции с иностранных решений