В чем сила последней видеомодели Meta с искусственным интеллектом, превосходящей Sora во всех аспектах?

7 октября, 2024 Дядя Влад

За последние два дня сфера моделей генерации видео снова взорвалась благодаря выпуску Meta Movie Gen.

Самые печальные моменты внутри и за пределами отрасли – это не более чем два момента. Во-первых, эффект генерации является естественным и реалистичным, а также может одновременно генерировать звуки, соответствующие изображению. Это очень похоже на обсуждение и ощущение, вызванное. выпуск Sora в то время; во-вторых, новая модель Meta AI автоматически. Она легко настраивается, и соотношение видеоэкрана, а также видеоэлементы и детали могут быть настроены в соответствии с потребностями пользователя.

Итак, каковы детали Meta Movie Gen, который может привести к новой революции в создании видео? Как достигаются такие потрясающие эффекты на официальном сайте и в демонстрационных видеороликах? Эндрю Браун, руководитель отдела видеомоделей в Meta AI, подробно объяснил теоретическую технологию Meta Movie Gen:

Movie Gen значительно лучше Sora с точки зрения общего качества и последовательности. Подлинность и красота проверяют фотореализм, и Movie Gen побеждает по всем направлениям.
Meta Movie Gen — это набор моделей, которые могут выполнять преобразование текста в видео, преобразование текста в изображение, персонализацию, редактирование и преобразование видео в аудио.
Важно расширить параметры данных, вычислений и модели, объединить это с сопоставлением потоков и перейти к простой общей архитектуре LLM (Llama), тем самым достигнув качества генерации видео SOTA.
Мы (Meta AI) первые, кто использовал Llama Arch для генерации медиа.
Movie Gen — это параметрический преобразователь 30B, который генерирует видео 1080p с различными соотношениями сторон и синхронизированным звуком с максимальной продолжительностью 16 секунд (16 кадров в секунду).
Мы (Meta) предоставляем решение для многоэтапного обучения по модели T2V. Совместное обучение T2I + T2V, что приводит к гораздо более медленной конвергенции и худшему качеству.
Оценка преобразования текста в видео затруднена. Автоматизированные показатели очень плохие и плохо коррелируют с человеческими оценками.

Созданный на видео «супериндивидуал»

В день запуска Meta Movie Gen компания APPSO немедленно сообщила и интерпретировала эту новейшую модель генерации видео. Вообще говоря, Movie Gen имеет четыре функции: генерация видео, генерация персонализированного видео, точное редактирование и генерация звука.

Давайте сначала посмотрим на самое базовое поколение видео Movie Gen Video. Мультимодальные возможности позволяют новой модели использовать множество различных методов ввода. Пользователи могут не только создавать соответствующие видео с помощью простого текста и нескольких слов-подсказок, но и напрямую. обработать необходимое. Поместите изображения в модель и превратите статические изображения в динамические видеоролики в соответствии с требованиями к тексту.

▲ Текст подсказки: Девушка бежит по пляжу, держа в руке воздушного змея; на ней джинсовые шорты и желтая футболка; на ней светит солнце;

Вы даже можете попросить Movie Gen помочь восстановить или оптимизировать видео. Независимо от того, какой метод ввода выбран, текущее демонстрационное видео Movie Gen на официальном сайте очень эффективно. Персонажи имеют естественные выражения и детали изображения на месте. Оно также может генерировать соответствующие результаты в соответствии с подсказками или текстовыми требованиями. точнее.

Эндрю Браун сообщил, что в процессе генерации видео очень важно расширить данные, параметры расчета и модели, объединить их с сопоставлением потоков и обратиться к простой и широко используемой архитектуре LLM (Llama), тем самым достигая качества генерации видео SOTA. .

Более того, модели T2V, персонализации и редактирования в новой модели основаны на одной и той же схеме обучения. Во время предварительного обучения Meta сначала тренирует T2I, а затем T2V. Используйте эту модель в качестве инициализации, затем проведите пост-обучение T2V и тренируйте способность персонализировать редактирование T2V и V2V.

Кроме того, обучение модели также ведется по уровню разрешения, сначала с обучением низкого разрешения (256 пикселей), а затем с обучением высокого разрешения (768 пикселей). Мета-ИИ пытается совместно обучать T2I + T2V, но это приводит к гораздо более медленной сходимости и худшему качеству, чем раньше.

Причина, по которой Movie Gen Video может достигать реалистичных результатов генерации, по существу связана с превосходными возможностями модели преобразователя параметров до 30B. Эта модель может генерировать видео продолжительностью до 16 секунд со скоростью 16 кадров в секунду и может генерировать до 16 кадров в секунду. 16 секунд видео. 45 секунд высококачественного и высококачественного звука.

Представители Мета также рассказали в газете:

Эти модели могут рассуждать о движении объекта, взаимодействии субъект-объект и движении камеры, а также могут изучать разумное движение для различных концепций.

Это предложение имеет в общей сложности три значения. Во-первых, сама модель может почти восстановить физическое движение реального мира, а также различные физические законы «здравого смысла». Для пользователей то, что выглядит «естественным и реалистичным», является тем, что есть. Модельная техника Самое удачное место.

Movie Gen Video может точно понимать модели движения физического мира, и Meta AI приложил большие усилия. Команда провела обширную предварительную подготовку новой модели на сотнях миллионов видео и миллиардах изображений. Благодаря постоянному повторению, обучению, обобщению, рассуждениям и применению Movie Gen Video добился выдающихся результатов на официальном сайте.

Затем модель также может активно имитировать и изучать движения камеры, сцены, монтажи и т. д. из профессиональных фильмов. Другими словами, видеоролики, созданные с помощью Movie Gen Video, также обладают таким же профессионализмом и артистизмом, как и съемка фильмов.

Однако Эндрю Браун отметил, что оценка преобразования текста в видео затруднена. Потому что автоматизированные показатели очень плохие и плохо коррелируют с человеческими оценками. Другими словами, на заре разработки моделей генерации видео результаты генерации слишком отличались от реального физического мира по впечатлениям и наблюдениям людей. В конце концов, Мета все же определила подлинность этого суждения, полностью полагаясь на человека. оценка.

Мы приложили много усилий, чтобы разбить оценку видео на несколько ортогональных осей качества и согласованности.

Результаты Movie Gen выигрывает или находится на одном уровне по всем показателям с точки зрения качества и стабильности по сравнению с моделями из оценочного набора с 1000 репликами.

Наконец, модель может рассуждать и на этой основе создавать следующий контент. Она как профессиональный режиссер, руководя каждым движением в картине, так же как опытный звукоподражатель на основе видеоконтента или текстовых подсказок генерирует звуковое сопровождение. что соответствует картинке в реальном времени.

▲ Звуковой эффект в момент взрыва фейерверка

Возможность синхронной генерации звука зависит от Movie Gen Audio. Это модель преобразователя параметров 13B, которая принимает видеовход, а также дополнительные текстовые подсказки для управляемой генерации высококачественного звука, синхронизированного с видео.

Как и Movie Gen Video, Movie Gen Audio также выполняет «массивные» упражнения. Meta AI вкладывает миллионы часов аудиоссылок в обучение модели. После долгих сравнений и обобщений текущая модель освоила соответствие между звуком и изображением и даже может понять, какие чувства вызывает у аудитории разная фоновая музыка.

Поэтому, когда дело доходит до ключевых слов, касающихся настроения и окружающей среды, Movie Gen Audio всегда может найти музыку, которая идеально соответствует изображению.

В то же время он может генерировать окружающие звуки, инструментальные минусовки и звуки фоли, обеспечивая самые современные результаты с точки зрения качества звука, выравнивания видео-аудио и выравнивания текста-аудио.

Это делает их самыми совершенными моделями в своем роде.

Хотя мы не осмеливаемся сделать такой уверенный вывод, как официальный, независимо от официальной длины видео, качества изображения или соответствия фоновой музыки, по сравнению с моделями видео предыдущего поколения, Movie Gen Video имеет весьма очевидный прогресс.

Более того, по сравнению с предыдущим кумиром Сорой, Movie Gen имеет явное преимущество с точки зрения общего качества и последовательности. Эндрю Браун беззастенчиво заявил, что в этой игре с Сорой:

Movie Gen побеждает по всем направлениям.

«Универсальный эксперт» в области редактирования видео

Благодаря сотрудничеству Movie Gen Video и Movie Gen Audio новая модель генерации видео Meta AI получила новые возможности. Однако вышеупомянутые достижения являются лишь технической основой. Благодаря способности генерировать аудио и видео Meta также продолжает расширяться. новая модель. Область применения позволяет поддерживать создание персонализированных видеороликов.

Персонализация, как следует из названия, заключается в объединении потребностей пользователя и создании определенного видеоконтента в соответствии с требованиями.

Хотя предыдущие модели видео также могут генерировать персонализированные результаты, результаты всегда неудовлетворительны. Либо детали невозможно изменить, и их приходится начинать заново, либо другие элементы изображения не могут быть сохранены, когда детали постоянно изменяются. путем создания новых видеороликов.

Демонстрация Movie Gen Video на официальном сайте очень хорошо демонстрирует их преимущества в этом аспекте. Новая модель может не только генерировать персонализированные видео в соответствии с требованиями подсказок/эталонных изображений, но также продолжать оптимизировать и корректировать детали на основе видео и гарантировать, что другой сгенерированный контент не будет нарушен, что является «тонкой модификацией».

В отличие от традиционных инструментов генерации, которые требуют специальных навыков или недостаточной точности, Movie Gen сохраняет исходный контент и ориентируется только на соответствующие пиксели.

Наша модель достигает самых современных результатов в создании персонализированных видеороликов, сохраняющих человеческую идентичность и действия.

Эта функция очень полезна для многих студий самостоятельного мультимедиа или людей, нуждающихся в редактировании видео. Она может вносить глобальные или подробные изменения в измененные объекты. Это может быть как восстановление всей картинки на основе текста, так и маленькое, например изменение цвета волос персонажа, стиля очков и т. д. Например, модели можно использовать для устранения ненужного беспорядка на заднем плане.

Или вы можете придать исходному видео новый фон, будь то стиль или цвет, вы можете изменить его в любое время, а также превратить день в ночь за считанные секунды.

Кроме того, Movie Gen Video также может вносить тонкие корректировки во многие детали. При этом гарантируя, что композиция видео и общая картина остаются неизменными, он также может изменять цвет одежды персонажа, стиль ношения очков, основную одежду, цвет шерсти домашних животных. , и т. д.

Например, удаление ненужного беспорядка в видеороликах, изменение стиля фона изображения, добавление деталей в видео, изменение цвета одежды объекта съемки и т. д. — все это его сильные стороны.

Но это всего лишь фантазия, потому что Movie Gen Video в настоящее время поддерживает только длинное видео высокой четкости 1080P, 16 секунд, 16 кадров в секунду или до 45 секунд высококачественного и высококачественного звука. Такого разрешения изображения и продолжительности видео кажется недостаточно для человека или компании с творческими потребностями.

Однако этот технологический прорыв позволил ИИ иметь возможность редактировать видеофайлы с бесконечными настройками, персонализацией и точной настройкой. Кроме того, Movie Gen Audio открыл двери для дублирования видео, хотя Movie Gen Video не будет доступен до следующего года. Это не было официально встречено общественностью, но, судя по текущим официальным результатам демонстрации, действительно возможно придать новый импульс индустрии видео, кино, телевидения и искусственного интеллекта и даже вызвать новую революцию.

Новейшие и самые передовые инструменты, в том числе Movie Gen Video, пытаются сломать этот стереотип об искусственном интеллекте в области генерации видео, хотя с их нынешними возможностями до этого дня еще далеко.

Для моделей генерации видео поначалу сложно напрямую влиять или даже касаться повседневной жизни обычных людей. Возможно, только после того, как будет создан определенный фильм, созданный ИИ, он привлечет внимание публики с точки зрения новизны. Нынешние фильмы, сериалы и анимация, созданные с помощью ИИ, имеют некоторые недостатки, такие как нереалистичные изображения и непоследовательные движения.

Meta AI также заявила на своем официальном сайте, что по мере совершенствования и развития модельных технологий они будут тесно сотрудничать с кинематографистами и создателями, чтобы интегрировать их отзывы. В настоящее время, будь то Runway, Sora или новейший Meta AI, они все быстро развиваются. По крайней мере, по сравнению с результатами генерации годичной давности мы видим видимый прогресс.

Влияние технологии искусственного интеллекта на жизнь людей может быть неочевидным. Пока все еще обсуждают, «что такое использование искусственного интеллекта», его величайшее значение для большинства людей заключается в том, что у него есть еще один полезный инструмент — забавная игрушка:

Независимо от того, является ли человек режиссером, стремящимся добиться успеха в Голливуде, или автором, которому нравится создавать видеоролики для аудитории, мы считаем, что каждый должен иметь доступ к инструментам, которые помогают повысить его творческий потенциал.

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo