Ученый по данным Netflix учил А.И. распознавать кадры в фильмах

Старший исследователь данных в Netflix научил алгоритм искусственного интеллекта (ИИ), чтобы быть в состоянии распознать дурни. Амир Зиаи разработал инструмент, который способен смотреть фильмы и распознавать сцены, в которых персонажи сжимают губы, в рамках своей работы по получению сертификата выпускника ИИ из Стэнфордского университета.

Он выбрал сцены поцелуев, потому что, как он сказал Digital Trends, их может быть сложно обнаружить с использованием традиционных методов обработки видео. Это связано с тем, что машины легко путаются и дают ложные срабатывания, когда видят другие сценарии, в которых головы двух людей находятся близко друг к другу — например, сцены разговора или сценарии, в которых персонажи ходят в непосредственной близости.

«Обучение проводилось с использованием базы данных голливудских фильмов, охватывающих несколько десятилетий и жанров», — сказал Цзяи. «Я аннотировал сегменты поцелуев и нецелуев в 100 из этих фильмов и использовал эти сегменты для обучения мультимодальной нейронной сети, которая использует как аудио-, так и визуальные функции из 1-секундных сегментов. Основная проблема с обучением этих моделей является двойной. Во-первых, мне нужно было убедиться, что я аннотировал репрезентативный набор обучающих примеров, которые помогут обобщить различные наборы фильмов. Во-вторых, обучение моделей глубокого обучения на видео может быть очень ресурсоемким ».

Тем не менее, он осуществил подвиг, и полученный инструмент оказался впечатляюще точным. Система использует двухфазный процесс. Во-первых, он использует двоичный классификатор, чтобы предсказать, происходит ли поцелуй или нет, используя функции, извлеченные из неподвижных кадров и звуковых волн. Затем второй компонент объединяет двоичные метки для «смежных непересекающихся сегментов» в набор сцен поцелуев. Окончательный результат достигает валидации F1 балла 0,95 в разнообразной базе данных фильмов.

Следует отметить, что Ziai — не единственный человек, заинтересованный в том, чтобы машинный интеллект распознавал поцелуи. Недавно Google представила новую функцию для своего инструмента Photobooth, которая предлагает смартфонам Pixel автоматически делать фотографии, когда они распознают, что объекты в кадре целуются.

«Систему, подобную детектору поцелуев, можно использовать для автоматического добавления метаданных в фильмы», — сказал Цзяи. «Эти метаданные можно использовать для поиска и извлечения соответствующих фрагментов. Например, видеоредактор может использовать такие метаданные для быстрого поиска соответствующих сегментов и для ускорения процесса редактирования фильма ».

Документ, описывающий работу под названием «Обнаружение сцен поцелуев в базе данных голливудских фильмов», доступен для чтения на сервере препринтов arXiv .