Сора снова превзойден! Видеомодель Meta AI взрывается поздно ночью и поставляется с потрясающей фоновой музыкой, что делает редактирование видео проще, чем P-изображения.
В последнее время Цукерберг был занят тем, что «крадет всеобщее внимание» во всем мире.
Не так давно он начал свое «второе предпринимательство» и только что показал нам мощнейшие AR-очки Meta Orion, которые он оттачивал уже десять лет. Хотя это всего лишь прототип машины, делающей ставку на будущее, она привлекла к себе всеобщее внимание. Apple Vision Pro.
Вчера вечером Мета снова затмила всех в треке модели генерации видео.
Мета заявила, что недавно выпущенный Meta Movie Gen является самой продвинутой «моделью Media Foundation» на сегодняшний день.
Однако давайте сначала примем меры предосторожности. Представители Мета еще не предоставили четкого графика открытия.
Чиновники утверждают, что активно общаются и сотрудничают с профессионалами и создателями индустрии развлечений и, как ожидается, интегрируют его в собственные продукты и услуги Meta где-то в следующем году.
Кратко суммируем особенности Meta Movie Gen:
- Он имеет такие функции, как создание персонализированного видео, точное редактирование видео и создание звука.
- Поддерживает создание длинных видеороликов высокой четкости с разрешением 1080P, 16 секунд и 16 кадров в секунду.
- Способен генерировать до 45 секунд высококачественного и высококачественного звука.
- Введите простой текст, чтобы получить сложные и точные возможности редактирования видео.
- Демо-версия была превосходной, но официально продукт не будет официально доступен публике до следующего года.
Попрощайтесь с «мимикой» и сосредоточьтесь на больших и комплексных функциях.
Вкратце, Movie Gen имеет четыре основные функции: создание видео, создание персонализированного видео, точное редактирование видео и создание звука.
Функция видео Vincent уже давно является стандартной функцией моделей генерации видео. Однако Meta Movie Gen может генерировать видео высокой четкости с различными соотношениями сторон в соответствии с потребностями пользователя, что является первым в своем роде в отрасли.
Краткое описание ввода текста: Ленивец в розовых очках лежит на поплавке в бассейне. Ленивец держит тропический напиток. Солнечный свет отбрасывает тень.
Краткое описание ввода текста: Камера находится за мужчиной. Мужчина без рубашки, с зеленой тканью на талии. Он босиком. С огненным предметом в каждой руке он совершает широкие круговые движения. На заднем плане спокойное море. Атмосфера завораживает, танец огня.
Кроме того, Meta Movie Gen предоставляет расширенные функции редактирования видео, позволяющие пользователям решать сложные задачи редактирования видео с помощью простого ввода текста.
От визуального стиля видео до эффектов перехода между видеоклипами и более детальных операций редактирования — эта модель также дает достаточную свободу.
Meta Movie Gen также сделал большой шаг вперед в создании персонализированного видео.
Пользователи могут загружать свои собственные изображения и использовать Meta Movie Gen для создания персонализированных видеороликов, сохраняющих при этом характер и движение.
Краткое описание ввода текста: Девушка-ковбой в джинсовых штанах сидит на белой лошади в старом западном городе. На ее талии застегивается кожаный ремень. Лошадь величественна, на заднем плане блестят ее шкуры.
От фонариков Kongming до прозрачных цветных пузырей — вы можете легко заменить один и тот же объект в видео всего одним предложением.
Ввод текста: Превратите фонарь в пузырь, который взлетает в воздух.
Хотя в этом году было представлено множество видеомоделей, большинство из них могут создавать только «мимику». Жаль отказываться от них, если они безвкусны и не «повторили те же ошибки».
Ввод текста: Красивое оркестровое произведение, вызывающее чувство удивления.
Более того, он может не только создать отдельный звуковой эффект, но также создать фоновую музыку и даже полную звуковую дорожку для всего видео, тем самым значительно улучшая общее качество видео и впечатления от просмотра у зрителей.
После просмотра демо Лекс Фридман лаконично выразил свое восхищение.
Многие пользователи сети снова «подтолкнули» будущее OpenAI Сора, но более нетерпеливые пользователи сети начали с нетерпением ждать открытия квалификаций по тестированию опыта.
Главный научный сотрудник Meta AI Ян ЛеКун также продвигал платформу Meta Movie Gen в Интернете.
Пирог, нарисованный Метой, стоит с нетерпением ждать.
Когда был запущен Meta Movie Gen, исследовательская группа Meta AI одновременно опубликовала 92-страничный технический документ.
Согласно сообщениям, исследовательская группа Meta в области искусственного интеллекта в основном использует две основные модели для достижения этих обширных функций: модели Movie Gen Video и Movie Gen Audio.
Среди них Movie Gen Video — базовая модель с 30B параметрами, которая используется для преобразования текста в видео и может генерировать высококачественные HD-видео продолжительностью до 16 секунд.
На этапе предварительного обучения модели используется большой объем изображений и видеоданных для понимания различных концепций визуального мира, включая движение объекта, взаимодействие, геометрию, движение камеры и физические законы.
Для улучшения качества генерации видео модель также подвергается контролируемой тонкой настройке (SFT) с использованием небольшого набора тщательно отобранных высококачественных видеороликов и текстовых титров.
В отчете показано, что процесс постобучения является важным этапом обучения модели Movie Gen Video, который может еще больше улучшить качество генерации видео, особенно функции персонализации и редактирования изображений и видео.
Стоит отметить, что исследовательская группа также сравнила модель Movie Gen Video с основными моделями генерации видео.
Поскольку Sora в настоящее время закрыта, исследователи могут использовать только общедоступные видеоролики и советы для сравнения. Для других моделей, таких как Runway Gen3, LumaLabs и Keling 1.5, исследователи предпочитают создавать видео самостоятельно через интерфейсы API.
А поскольку видео, опубликованные Сорой, имеют разное разрешение и продолжительность, исследователи обрезали видео из Movie Gen Video, чтобы обеспечить одинаковое разрешение и продолжительность при сравнении.
Результаты показывают, что общий оценочный эффект Movie Gen Video значительно лучше, чем у Runway Gen3 и LumaLabs, имеет небольшое преимущество перед OpenAI Sora и эквивалентен Keling 1.5.
В будущем Meta также планирует публично выпустить несколько тестов, в том числе Movie Gen Video Bench, Movie Gen Edit Bench и Movie Gen Audio Bench, чтобы ускорить исследования моделей генерации видео.
Модель Movie Gen Audio — это модель с 13B параметрами для генерации видео и преобразования текста в аудио, способная генерировать до 45 секунд высококачественного и высококачественного звука, включая звуковые эффекты и музыку, и синхронизироваться с видео.
Модель использует генеративную модель, основанную на архитектуре модели согласования потоков и диффузионного трансформатора (DiT), а также добавляет дополнительные условные модули для обеспечения управления.
Даже исследовательская группа Meta представила технологию расширения звука, которая позволяет модели генерировать последовательный звук за пределами первоначального предела в 45 секунд. То есть модель может генерировать соответствующий звук независимо от продолжительности видео.
Для получения более подробной информации, пожалуйста, просмотрите технический документ.
https://ai.meta.com/static-resource/movie-gen-research-paper
Вчера Тим Брукс, глава OpenAI Sora, официально объявил о своей отставке и присоединился к Google DeepMind, что в очередной раз бросило тень на неопределенное будущее проекта Sora.
По сообщению Bloomberg, вице-президент Meta Коннор Хейс заявил, что у Meta Movie Gen в настоящее время нет конкретных планов по выпуску продукта. Хейс раскрыл важную причину задержки внедрения.
Meta Movie Gen в настоящее время использует текстовые подсказки для создания видео, которое часто требует десятков минут ожидания, что сильно влияет на взаимодействие с пользователем.
Meta надеется еще больше повысить эффективность генерации видео и как можно скорее запустить видеосервис на мобильном терминале, чтобы лучше удовлетворить потребности потребителей.
Фактически, если вы посмотрите на форму продукта, функциональный дизайн Meta Movie Gen ориентирован на то, чтобы быть большим и всеобъемлющим, а не «хромым», как у других видеомоделей.
Самым заметным недостатком является то, что он имеет тот же привкус «фьючерса», что и Сора.
Идеал очень насыщен, реальность очень тощая.
Можно сказать, что так же, как сейчас Sora обгоняют крупные отечественные модели, с запуском Meta Movie Gen конкурентная среда в сфере генерации видео может снова измениться.
Но, по крайней мере, на данный момент пирога, нарисованного Метой, достаточно, чтобы люди его проглотили.
# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo