Новый генератор видео в аудио от Google анализирует пиксели для создания саундтреков

ИИ генерировал волчий вой
Гугл Глубокий Разум

Во вторник Deep Mind продемонстрировала последние результаты своего исследования генеративного искусственного интеллекта по преобразованию видео в аудио. Это новая система, которая объединяет то, что она видит на экране, с письменным приглашением пользователя для создания синхронизированных звуковых ландшафтов для данного видеоклипа.

V2A AI может работать в паре с такими моделями видеогенерации, как Veo, написала в своем блоге команда генеративного аудио Deep Mind , и может создавать саундтреки, звуковые эффекты и даже диалоги для действий на экране. Более того, Deep Mind утверждает, что ее новая система может генерировать «неограниченное количество саундтреков для любого видеовхода», настраивая модель положительными и отрицательными подсказками, которые поощряют или препятствуют использованию определенного звука соответственно.

Система работает, сначала кодируя и сжимая входной видеосигнал, который затем использует модель диффузии для итеративной очистки желаемых звуковых эффектов от фонового шума на основе дополнительной текстовой подсказки пользователя и визуального ввода. Этот аудиовыход окончательно декодируется и экспортируется в виде сигнала, который затем можно повторно объединить с видеовходом.

Самое приятное то, что пользователю не нужно заходить и вручную (читай: утомительно) синхронизировать аудио и видео дорожки, поскольку система V2A делает это автоматически. «Благодаря обучению видео, аудио и дополнительным аннотациям наша технология учится связывать определенные аудиособытия с различными визуальными сценами, реагируя при этом на информацию, представленную в аннотациях или расшифровках», — пишет команда Deep Mind.

Однако система еще не совершенна. Во-первых, качество выходного звука зависит от точности видеовхода, и система выходит из строя, когда на входе присутствуют видеоартефакты или другие искажения. По словам команды Deep Mind, синхронизация диалогов со звуковой дорожкой остается постоянной проблемой.

«V2A пытается генерировать речь из входных расшифровок и синхронизировать ее с движениями губ персонажей», — объяснили команда. «Но модель парной видеогенерации может не зависеть от транскриптов. Это создает несоответствие, которое часто приводит к странной синхронизации губ, поскольку видеомодель не генерирует движения рта, соответствующие расшифровке».

Системе все еще необходимо пройти «строгие оценки безопасности и испытания», прежде чем команда рассмотрит возможность ее публикации. Каждое видео и саундтрек, созданные этой системой, будут сопровождаться водяными знаками SynthID Deep Mind. Эта система — далеко не единственная система искусственного интеллекта, генерирующая звук, на данный момент на рынке. Stability AI выпустила аналогичный продукт только на прошлой неделе, а ElevenLabs выпустила свой инструмент для создания звуковых эффектов в прошлом месяце.