Представляем самую мощную модель генерации видео Sora: как OpenAI делает один кадр за одну минуту?

Сегодня рано утром OpenAI извлекла из своего «арсенала боеприпасов» инструмент генерации видео с использованием искусственного интеллекта Sora, мгновенно заняв заголовки главных новостей.

Даже Маск, который всегда был в противоречии с OpenAI, готов признать мощь Sora и похвалить ее: «В ближайшие несколько лет люди будут создавать выдающиеся произведения с помощью мощи ИИ».

Сила Sora заключается в ее способности создавать связные и плавные видеоролики продолжительностью до 60 секунд на основе текстовых описаний, которые содержат деликатные и сложные сцены, яркие выражения персонажей и сложные движения камеры.

По сравнению с другими видео, которые могут генерировать только однозначные видеоролики, одноминутная продолжительность Соры, несомненно, имеет эффект переворота.

Что еще более важно, Сора показал лучший уровень с точки зрения достоверности видео, продолжительности, стабильности, последовательности, разрешения и понимания текста. Давайте сначала посмотрим официально выпущенные демонстрационные видеоролики.

Подсказка: Красивый, заснеженный город Токио суетится. Камера движется по оживленной городской улице, следя за несколькими людьми, наслаждающимися прекрасной снежной погодой и делающими покупки в близлежащих ларьках. Великолепные лепестки сакуры летят на ветру вместе со снежинками.

В этом видео с высоты дрона видно, как пара идет по оживленной городской улице, а красивые лепестки сакуры танцуют в воздухе в сопровождении снежинок.

В то время как другие инструменты все еще изо всех сил пытаются сохранить стабильность одной линзы, Sora плавно добилась плавного переключения нескольких линз, а согласованность переключения линз и согласованность объектов находятся далеко впереди, что является настоящим ударом по уменьшению размерности.

▲От @gabor

Раньше съемка такого видео могла требовать много времени и энергии для выполнения ряда утомительных задач, таких как создание сценария и дизайн кадра. Теперь, используя простое текстовое описание, Сора может полностью создать такую ​​большую сцену, и соответствующие практикующие, возможно, начнут дрожать.

Пользователь сети @debarghya_das создал этот 20+-секундный трейлер за 15 минут, используя монтаж OpenAI Sora, голос Дэвида Аттенборо из Eleven Labs и несколько образцов естественной музыки с Youtube на iMovie.

Как Сора достигает такого мощного эффекта?

OpenAI также опубликовала подробный технический отчет о Sora, в котором представила лежащие в его основе технические принципы и приложения.

Итак, как Сора добился этого прорыва? Вдохновленный успешным практическим опытом LLM, OpenAI представляет коды внедрения визуальных патчей (патчи), высокомасштабируемое и эффективное представление визуальных данных, которое может значительно улучшить способность генеративных моделей обрабатывать разнообразные видеоданные и изображения.

В многомерном пространстве OpenAI сначала сжимает видеоданные в низкомерное скрытое пространство, а затем разлагает их на пространственно-временные внедрения, тем самым преобразуя видео в серию блоков кодирования.

Затем OpenAI обучила сеть, специально предназначенную для уменьшения размерности визуальных данных. Сеть принимает необработанное видео в качестве входных данных и выводит скрытое представление, сжатое как во времени, так и в пространстве. Именно внутри этого сжатого скрытого пространства Сора обучается и генерирует видео внутри этого пространства.

Кроме того, OpenAI обучила модель декодера, которая может восстанавливать эти скрытые представления в видеоизображениях на уровне пикселей.

Обработав входной сжатый видео, исследователи смогли извлечь серию пространственно-временных патчей, которые играют в модели роль, аналогичную токенам-трансформерам.

Используя представление на основе патчей, Sora может адаптироваться к видео и изображениям различного разрешения, длительности и соотношения сторон.При создании нового видеоконтента эти случайно инициализированные патчи можно упорядочить в сетку в соответствии с требуемым размером.Управляйте размером и форму вашего окончательного видео.

Хотя приведенный выше принцип звучит довольно сложно, на самом деле новая технология, используемая OpenAI, — код встраивания визуальных блоков (называемый визуальным блоком) — подобна организации группы неорганизованных строительных блоков в небольшой коробке. Таким образом, даже если строительных блоков много, вы можете легко найти нужные строительные блоки, если найдете эту небольшую коробку.

Поскольку видеоданные преобразуются в маленькие квадраты, когда OpenAI предоставляет Sora новую видеозадачу, они сначала извлекают из видео несколько маленьких квадратов, содержащих временную и пространственную информацию. Эти маленькие квадратики затем передаются Соре для создания новых видеороликов на основе этой информации.

Таким образом, видео можно собрать как пазл. Преимущество этого заключается в том, что компьютер может быстрее запоминать и обрабатывать различные типы изображений и видео.

Поскольку Сора прошел более глубокое обучение, исследователи OpenAI также обнаружили, что качество выборки значительно улучшилось по мере увеличения объема обучающих вычислений. OpenAI обнаружила, что обучение непосредственно на исходном размере данных имеет несколько преимуществ:

  • Sora не обрезает материал во время обучения, что позволяет Sora создавать контент непосредственно в соответствии с собственным соотношением сторон различных устройств.
  • Обучение использованию собственного соотношения сторон видео может значительно улучшить качество композиции и макета видео.

Кроме того, Sora имеет следующие возможности:

Для обучения системы генерации текста в видео требуется большое количество видеороликов с текстовыми подписями. OpenAI применяет к видео технологию повторных аннотаций, представленную в DALL·E 3.

Подобно DALL·E 3, OpenAI использует GPT для преобразования коротких подсказок пользователя в более длинные подробные инструкции, а затем отправляет их в видеомодель, что позволяет Sora генерировать высококачественные видеоролики.

Помимо преобразования текста, Sora также может принимать входные данные из изображений или существующих видео. Эта функция позволяет Sora выполнять различные задачи по редактированию изображений и видео, например создавать плавные зацикленные видеоролики, добавлять анимационные эффекты к статическим изображениям, увеличивать время воспроизведения видео и т. д.

Реалистичное изображение облаков, образующих слово «СОРА».

В богато украшенный исторический зал вот-вот нахлынет огромная волна. Два серфера воспользовались возможностью и мастерски покатались на волнах.

Сора может изменить стиль и обстановку в видео без каких-либо предварительных примеров. Даже два видео совершенно разных стилей можно легко соединить.

Sora также может генерировать изображения.Исследовательская группа создает изображения различных размеров, располагая блоки гауссовского шума в пространственной сетке с временным диапазоном всего в один кадр.Максимальное разрешение достигает 2048×2048.

Настоящий OpenAI также откровенно признал текущие ограничения Sora, такие как ее неспособность моделировать физические эффекты сложных сцен и понимать некоторые конкретные причинно-следственные связи. Например, он не может точно моделировать базовые физические взаимодействия, такие как разбитие стекла.

▲Бег в противоположном направлении

Но OpenAI твердо верит, что текущие возможности Sora показывают, что дальнейшее расширение видеомоделей является многообещающим путем к разработке эффективных симуляторов, которые смогут моделировать физический и цифровой миры, а также объекты, животных и людей внутри них.

Модели мира, следующее направление ИИ?

OpenAI обнаружила, что при масштабном обучении Сора демонстрирует убедительный набор новых возможностей, которые могут в определенной степени имитировать реальных людей, животных и окружающую среду.

Эти возможности не основаны на конкретных настройках трехмерного пространства или объектов, а основаны на крупномасштабных данных.

  • Когерентность в трехмерном пространстве
    Sora может создавать видео с динамическим изменением перспективы. При изменении положения и угла камеры персонажи и элементы сцены в видео могут согласованно перемещаться в трехмерном пространстве.
  • Непрерывность изображения на большом расстоянии и сохранение объектов Sora поддерживает непрерывность видео в течение длительного периода времени, даже когда люди, животные или объекты скрыты или выведены за пределы кадра. Аналогично, он может показывать один и тот же персонаж несколько раз в одном и том же образце видео и обеспечивать единообразный вид.
  • Моделирование цифрового мира
    Сора также может моделировать цифровые процессы, такие как видеоигры, просто упоминая слова «Minecraft», чтобы активировать соответствующие способности.

OpenAI рассматривает Sora как «основу моделей, способных понимать и моделировать реальный мир» и полагает, что ее возможности «станут важной вехой в реализации AGI».

По поводу прибытия Соры старший научный сотрудник NVIDIA Джим Фан сказал:

Если вы считаете, что Sora от OpenAI — это инструмент для творческих экспериментов, как DALL·E, возможно, вам стоит пересмотреть свое мнение.

Sora на самом деле представляет собой основанный на данных механизм моделирования физики, который может моделировать реальные или вымышленные миры. Этот симулятор изучает сложный рендеринг изображений, «интуитивное» физическое поведение, возможности долгосрочного планирования и понимание семантического уровня посредством шумоподавления и вычислений градиента.

В основе возможностей этой модели лежит универсальная модель мира, которая представляет собой систему искусственного интеллекта. Ее цель — построить модуль нейронной сети, который может обновлять состояние для запоминания и моделирования окружающей среды.

Эта модель способна предсказывать следующее возможное наблюдение на основе текущих наблюдений (таких как изображения, состояния и т. д.) и предстоящих действий. Он моделирует возможные будущие события в окружающей среде, изучая законы и здравый смысл мира.

На самом деле, модель мира не является новой концепцией. от существующего LLM и может быть более реалистичным.Системы искусственного интеллекта, моделирующие реальный мир.

В частности, основная идея модели мира состоит в том, чтобы узнать, как устроен мир, путем запоминания исторического опыта, а затем предсказать события, которые могут произойти в будущем. Например, по видео падающего объекта модель может предсказать следующий кадр на основе текущего изображения, тем самым изучая физические законы движения объекта.

Лауреат премии Тьюринга Ян ЛеКун также предложил аналогичную концепцию и раскритиковал большие модели, основанные на вероятностной генеративной авторегрессии, такие как GPT, полагая, что такие модели не могут решить проблему галлюцинаций. ЛеКун и его команда даже предсказывают, что такие модели, как GPT, могут устареть в течение следующих пяти лет.

Модели мира можно рассматривать как направление исследований в области искусственного интеллекта, пытающееся создать ИИ, приближающийся к уровню человеческого интеллекта. Моделируя и изучая реальные среды и события, мировые модели потенциально могут вывести ИИ на более высокий уровень возможностей моделирования и прогнозирования.

В феврале Джастин Мур, партнер известной венчурной компании a16z, провела углубленный анализ текущей ситуации в сфере генерации видео с помощью ИИ. За два года, прошедших с тех пор, как генеративный ИИ постепенно стал известен общественности, область создания видео с помощью ИИ открыла процветающую сцену, где цветут сотни цветов и соревнуются сотни научных школ.

С появлением OpenAI Sora сфера создания видео с помощью искусственного интеллекта поднимет огромные волны, и это может затронуть существующие основные платформы, такие как Runway, Pika и Stable Video Diffusion.

В то же время правила игры для независимых авторов будут полностью изменены: любой, у кого есть творческие способности и идеи, сможет использовать Sora для создания собственного видеоконтента. Снижение порога творчества также означает, что независимые творцы откроют золотой век.

Как сказано в «Задаче трех тел», «Это не имеет значения.» Независимо от текущей конкурентной ситуации, область создания видео с помощью ИИ может быть подорвана новыми технологиями и инновациями. И появление Соры — это только начало, далекое от конца.

# Добро пожаловать на официальную общедоступную учетную запись aifaner в WeChat: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo