Создавайте видео за 30 секунд, бесплатно и неограниченное количество раз. Выпущенная сегодня китайская версия «Wisdom Spectrum Qingying» от OpenAI была просто сумасшедшей. С руководством по опыту.

26 июля, 2024 Дядя Влад

За последние полгода отечественные и зарубежные модели генерации видео открыли новый виток технологического взрыва, и они всегда были популярны в первую очередь в социальных сетях.

Однако, в отличие от «отставания» моделей генерации языков, последние тенденции показывают, что отечественный прогресс в области моделей генерации видео значительно превысил международный уровень. Многие иностранные пользователи сети заявили, что «Китайское Keling AI Video» взрывает Интернет, в то время как Sora от OpenAI спит.

Сегодня компания Zhipu AI, ведущий отечественный производитель моделей, также выпустила свой продукт для генерации видео с использованием искусственного интеллекта «Qingying».

Конечно, в стране и за рубежом существует множество видеомоделей искусственного интеллекта, и все они имеют множество недостатков, но по сравнению с «будущими» Sora, эти видеопродукты искусственного интеллекта одновременно видимы и осязаемы, и могут потребоваться максимум несколько дополнительных попыток. Видео "вытягивания" гарантированной суммы.

И само это исследование является частью технического прогресса.

Точно так же, как GPT-3 подвергался сомнению и критике в начале своего рождения и, наконец, использовал время, чтобы доказать свою ценность для продолжения прошлого и открытия будущего, точно так же, если мы дадим этим инструментам генерации видео AI некоторое время, они могут превращаются из игрушек в инструменты за считанные дни.

Ссылка на доступ к ПК Qingying:
https://chatglm.cn/video?fr=opt_homepage_PC
Ссылка на мобильный доступ Цинъин:
https://chatglm.cn/video?&fr=opt_888_qy3

Создайте 6-секундное видео за полминуты, официально выпущен «Zhipu Qingying».

По сравнению с Zhipu Qingying, выпущенным сегодня, многие люди, возможно, более знакомы с Zhipu Qingying, но вместо того, чтобы смотреть рекламу, чтобы убедиться в эффективности, вы могли бы также сначала взглянуть на демоверсию, созданную «Qingying».

В густом лесу сквозь щели между листьями пробивается солнечный свет, создавая эффект Тиндаля, и свет обретает форму.

Когда цунами взревело, как разъяренный монстр, вся деревня мгновенно была поглощена морем, как в классической сцене из фильма о конце света.

В ночном городе с мигающими неоновыми огнями маленькая обезьянка, полная механической красоты, держит в руках высокотехнологичные инструменты и ремонтирует такое же мигающее ультрафутуристическое электронное оборудование.

Снова сменив стиль рисования, котенок широко открыл рот, демонстрируя очеловеченное выражение растерянности, с вопросительными знаками по всей морде.

Никакой дворцовой боевой драмы, никаких интриг, перекрестных объятий Чжэнь Хуань Мэйчжуана сквозь время и пространство, только искренняя сестринская любовь.

Кроме того, благодаря CogVideo, модели генерации большого видео, независимо разработанной и эффективно созданной командой крупных моделей Zhipu, Qingying теперь поддерживает различные методы генерации, включая генерацию видео текста, генерацию видео изображений, и даже может использоваться в производстве рекламы. монтаж фильмов, производство коротких видеороликов и другие области.

Цинъин обладает сильной способностью следовать командам и может полностью понимать и выполнять инструкции, данные пользователем.

Согласно сообщениям, компания Zhipu AI самостоятельно разработала комплексную модель понимания видео для создания подробных и удобных для содержания описаний больших объемов видеоданных, тем самым улучшая понимание текста модели и возможности следования инструкциям, а также генерируя контент, отвечающий потребностям пользователей. . видео.

С точки зрения согласованности контента компания Zhipu AI самостоятельно разработала эффективную трехмерную вариационную структуру автокодировщика (3D VAE), которая сжимает исходное видеопространство до 2% от размера. Вместе с модулем кодирования положения 3D RoPE это более удобно. для захвата кадров во временном измерении. Отношения между ними устанавливают дальнюю зависимость в видео.

Например, сколько шагов нужно, чтобы превратить картофель в картофель фри? Не нужно «зажигать», достаточно простого слова-подсказки, и картошка превратится в золотистую и привлекательную картошку фри. Чиновники говорят, что какими бы дикими ни были ваши идеи, он может превратить их в реальность одну за другой.

Кроме того, CogVideoX, разработанный со ссылкой на алгоритм Sora, также представляет собой архитектуру DiT, которая может интегрировать три измерения текста, времени и пространства. После технической оптимизации CogVideoX увеличил скорость рассуждений в 6 раз по сравнению с предыдущим поколением. (КогВидео). Теоретически стороне модели требуется всего 30 секунд, чтобы сгенерировать 6-секундное видео.

Для сравнения, Keling AI, который сейчас находится в первом эшелоне, обычно генерирует одно 5-секундное видео за 2–5 минут.

На сегодняшней пресс-конференции генеральный директор Zhipu AI Чжан Пэн попросил Цинъин создать видео гепарда, спящего на земле со слегка покачивающимся телом. Однако для создания «цветущей» статичной розы требуется больше времени.

Кроме того, разрешение видео, генерируемого Qingying, может достигать 1440×960 (3:2), а частота кадров — 16 кадров в секунду.

Qingying также предусмотрительно предоставляет функцию звукового сопровождения, и сгенерированное видео можно напрямую публиковать с добавлением музыки.

Я изначально думал, что статичной картинки космонавта, играющего на гитаре, достаточно, чтобы быть невообразимым, но когда она двигалась и сочеталась с неторопливой мелодией, казалось, будто космонавты проводят концерт в космосе.

В отличие от Соры «Futures», «Цинъин» не занимается маркетингом голода. Он будет полностью открыт, как только появится в сети. Любой желающий сможет опробовать его без предварительной записи и очереди. Кроме того, будет запущено более высокое разрешение. в последующих версиях функция генерации видео с большей скоростью и большей продолжительностью.

Чжан Пэн также сказал на Дне открытых дверей Zhipu: «Все пользователи могут испытать возможности искусственного интеллекта в области текстового видео и видео на основе изображений через Ying».

Сейчас Qingying находится на начальном этапе тестирования, и все пользователи могут использовать его бесплатно. Если вы стремитесь к более плавному опыту, вы можете разблокировать один день (24 часа) прав на высокоскоростную полосу движения за 5 юаней. Если вы готовы заплатить 199 юаней, вы можете разблокировать один год платных прав на высокоскоростную полосу движения.

Кроме того, API Ying также одновременно запускается на открытой платформе больших моделей bigmodel.cn. Предприятия и разработчики могут испытать и использовать возможности моделей Wensheng Video и Tusheng Video, вызвав API.

Порог для начала работы низкий, но вам все равно нужно «вытягивать карты». Новичкам больше не придется беспокоиться о написании плохих инструкций.

APPSO также впервые испытала Qingying. После тестирования некоторых сценариев мы также обобщили некоторые впечатления об использовании Qingying:

Генерация видео похожа на «алхимию», и результат нестабильный. Рекомендуется попробовать еще несколько раз.
Верхний предел эффекта зависит от слова-подсказки, структура слова-подсказки должна быть максимально понятной.
Наилучший эффект от объектива дает съемка крупным планом, остальные снимки не очень стабильны.
Сортировка реализации типа объекта: Животные > Растения > Объекты > Здания > Люди.

Ученый, который не разбирается в искусстве, не является хорошим ученым. Эйнштейн играл на гитаре, как рыба в воде, качая головой в своем собственном ритме, и это не выглядело так, как будто он играл.

Гигантская панда также играет на гитаре стильно и универсально.

Тан Сенг, который обычно стоичен, помахал вам рукой и покачнулся в такт.

Конечно, вышеперечисленные видео все еще являются относительно хорошими. В процессе создания видео у нас также накопилось много бесполезных видео.

Например, я попросил лежащего на кровати императора съесть куриную ножку правой рукой, и из воздуха появилась лишняя рука. На последней секунде видео я почувствовал, что император вот-вот раскроет свою самку. макияж и прическа.

Или, может быть, в тот момент, когда Лесли Чунг посмотрел на меня, брат в его сердце стал «тем человеком».

В сложных сценах переход движений персонажей неестественен, физические характеристики сложных сцен не могут быть точно смоделированы, точность генерируемого контента недостаточна и т. д. Эти недостатки являются не «патентом» Цинъин, а текущими ограничениями генерации видео. модель.

В практических приложениях, хотя пользователи могут улучшить качество видео за счет оптимизации слов-подсказок, также часто встречается «переворачивание». К счастью, слова-подсказки приемлемого качества могут в значительной степени обеспечить нижний предел модели генерации видео.

Чтобы позаботиться о некоторых начинающих игроках, мы также специально подготовили несколько советов по подсказкам:

Простая формула: [Движение камеры] + [Построить сцену] + [Подробнее]
Сложная формула: [Язык объектива] + [Свет и тень] + [Сюжет (Описание объекта)] + [Движение объекта] + [Сцена (Описание сцены)] + [Настроение/Атмосфера]

Камера поворачивается (движение объектива), показывая маленького мальчика, сидящего на скамейке в парке (описание объекта) и держащего в руках дымящуюся чашку кофе (действие объекта). Он одет в синюю рубашку и выглядит счастливым (подробности сюжета), а фоном является обсаженный деревьями парк, сквозь листья которого на мальчика светит солнечный свет (описание окружающей среды).

Если вы все еще не имеете ни малейшего понятия, я рекомендую вам использовать интеллектуальный агент, предоставленный Чжипу Цинъянь, чтобы помочь написать слова-подсказки для видео. Даже если вы входите в обычные сцены из жизни, вы можете получить три высококачественных слова-подсказки.

Например, если вы просто скажете: «Корги загорает на пляже», вы получите следующие слова-подсказки в стиле фотографии природных пейзажей на китайском и английском языках, а также стиль акварельной живописи, стиль 3D-анимации и другие слова-подсказки стиля. выбирать из:

Русский: На солнечном пляже корги лениво лежит на пляжном полотенце, наслаждаясь теплым солнечным светом. Камера снимает с низкого угла. На заднем плане — огромный синий океан и белый песчаный пляж. Волны мягко плещутся о берег. Атмосфера спокойная, а качество изображения — сверхчеткое.
Русский: На солнечном пляже корги лениво лежит на пляжном полотенце, греясь в теплом солнечном свете. Камера снимает сцену с низкого ракурса, демонстрируя на заднем плане огромный синий океан и чистейший белый песок, а также ласковые волны. берег. Атмосфера спокойная, снятая в сверхвысоком разрешении 4K.

Видя такую приятную подсказку, да, это то, что мне действительно хотелось тогда написать.

Прилагается адрес словесного агента Цинъин (видео Вэньшэн): https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

То же самое касается создания видео из изображений. Введите тему изображения, выберите стиль изображения, и пусть Чжипу Цинъянь поможет вам написать соответствующие слова-подсказки. Эволюция от слов без подсказок к «надеть очки» к «Танский монах протягивает руку и надевает очки» имеет совершенно другой эффект.

Прилагается адрес агента с подсказкой Цинъин (видео Tusheng): https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

Если вы хотите хорошо выполнять свою работу, вам необходимо сначала отточить свои инструменты и немного больше раскрыть шаблон. В Zhipu Qingyan вы также можете испытать дополнительные инструменты для создания контента.

От первоначального сбора тематических материалов, до процесса написания сценария, процесса создания картинок и видео, а затем и до рекламного копирайтинга, можно практически раскрыть всю цепочку творчества по созданию видео. Почти не указано четко, что только вы. нужно подумать о творчестве, а все остальное остается за вами.

Мы обнаружили, что недавно выпущенные видеопродукты с искусственным интеллектом, в том числе Keling, улучшают управляемость с помощью таких методов, как управление первым и последним кадром.

Создатель ИИ Чэнь Кунь однажды рассказал APPSO, что почти все видеоролики ИИ, которые можно поставить на коммерческой основе, — это видеоролики Tusheng, потому что видеоролики Wensheng пока недоступны, и это на самом деле вопрос управляемости.

Qingying, выпущенный сегодня компанией Zhipu AI, еще больше улучшает управляемость текстовых видео. В интервью APPSO Zhipu AI заявил, что текстовые видео отражают более универсальную управляемость.

Большинство видео, созданных ИИ, по-прежнему контролируются людьми с помощью языка. Поэтому распознавание текста или простых языковых инструкций — это более высокий уровень контроля.

Видео с искусственным интеллектом переходит из игрушек в инструменты для создателей

Если прошлый год был первым годом бурного роста крупных моделей, то этот год стал важным узлом для применения ИИ-видео.

Хотя Сора, которая стала причиной всего этого, еще не была в сети, она вдохновила на создание видеороликов с искусственным интеллектом.

Сора решает проблему скачков детализации между кадрами за счет разумного проектирования деталей. В то же время напрямую генерируются видеоизображения высокого разрешения (1080p), которые могут генерировать семантически насыщенные видеоролики продолжительностью до 60 секунд, что указывает на то, что последовательность обучения, стоящая за ним, также является относительно длинной.

Только за последние два месяца не менее 10 компаний выпустили новые видеопродукты с искусственным интеллектом или крупные обновления.

Всего за несколько дней до выпуска Zhipu Qingying ИИ Keling AI от Kuaishou был открыт для внутреннего тестирования по всему миру, а другой PixVerse, известный как Sora, выпустил свою версию V2, которая поддерживает генерацию 1-5 непрерывных видеоконтентов в один клик.

Не так давно Runway Gen 3 Alpha также запустила публичное бета-тестирование для платных пользователей, в результате чего изысканность и гладкость деталей были значительно улучшены. Модель генерации видео на уровне фильма Dream Machine, которая была выпущена только в прошлом месяце, также недавно была обновлена с помощью функции первого и последнего кадра.

Всего за несколько месяцев генерация видео с помощью ИИ значительно улучшилась с точки зрения физического моделирования, плавности движений и понимания подсказок. Чэнь Кун, режиссер фэнтезийных драм с искусственным интеллектом, более чувствителен к этому. Он считает, что технология создания видео с использованием искусственного интеллекта может развиваться быстрее, чем предполагалось.

Видео с искусственным интеллектом в 2023 году больше похожи на динамические PPT, в которых персонажи действуют в замедленном режиме и полагаются на редактирование монтажа для рисования точек. Но теперь «аромат PPT» видео с искусственным интеллектом сильно потускнел.

Недавно был запущен первый отечественный драматический фильм AIGC «Горы и моря: Зеркала гор и морей: Рассекая волны». Он использует искусственный интеллект, чтобы заменить многие аспекты традиционных съемок кино и телевидения. Он рассказал APPSO, что в прошлом. , для создания подобных фэнтезийных тем нужно было не менее 100 человек, а он В команде всего более 10 человек, что значительно сокращает производственный цикл и стоимость.

За последние шесть месяцев мы видим, как все больше профессиональных создателей кино и телевидения начинают экспериментировать с видео с искусственным интеллектом. Внутренняя компания Kuaishou Douyin выпустила короткометражные драмы с искусственным интеллектом, а в Лос-Анджелесе состоялась премьера первого полнометражного фильма с искусственным интеллектом «Наш ремейк T2», созданного в сотрудничестве 50 создателей AIGC.

Хотя создание видео с помощью ИИ по-прежнему имеет ограничения с точки зрения согласованности персонажей и сцен, производительности персонажей, взаимодействия действий и т. д., нельзя отрицать, что видео с использованием ИИ постепенно превращается из игрушки, опробованной в прошлом году, в инструмент для создателей.

Это также может быть важной причиной того, что такие продукты, как Zhipu Qingying, Kuaishou Keling, Luma Dream Machine и другие продукты, начали запускать системы членства. Вы должны знать, что большинство отечественных крупных моделей для C-конца бесплатны, что является важной причиной. В соответствии с внутренними привычками и приоритетами оплаты подписки. В связи со стремлением к стратегиям роста пользователей, помимо любопытных пользователей, оплата видео с использованием искусственного интеллекта должна поддерживаться большим количеством создателей контента, чтобы быть устойчивой.

Конечно, создание видео с помощью ИИ все еще находится на относительно ранней стадии. Так называемое «создание фильма в одном предложении» — это всего лишь вводящий в заблуждение заголовок. Чтобы лучше понимать физический мир, видеомодели должны обладать лучшими возможностями отслеживания команд и управляемостью. .

Жипу также упомянул на сегодняшней пресс-конференции, что исследование мультимодальных моделей все еще находится на очень ранней стадии.

Судя по эффекту создаваемых видеороликов, есть много возможностей для совершенствования в плане понимания законов физического мира, высокого разрешения, непрерывности движений камеры и продолжительности.
С точки зрения самой модели, необходима новая архитектура модели с более революционными инновациями. Она должна более эффективно сжимать видеоинформацию, полностью интегрировать текстовый и видеоконтент и делать генерируемый контент более реалистичным, в то же время соответствующим инструкциям пользователя.

«Мы активно изучаем более эффективные методы масштабирования на уровне модели». Однако Чжан Пэн также уверен в разработке мультимодальных моделей: «Я считаю, что благодаря непрерывному обновлению алгоритмов и данных закон масштабирования будет продолжать действовать. его мощная сила».

Создатель искусственного интеллекта Чэнь Кунь считает, что это лишь вопрос времени, когда кадры, созданные искусственным интеллектом, будут на 100% подходить для большого экрана. Сколько времени это займет, не самое главное, о чем нужно заботиться, но участие в этом процессе важнее, как отметил в предыдущем интервью APPSO Чжан Пэн, генеральный директор Zhipu AI:

Многие вещи нужно исследовать одно за другим, и этот процесс очень важен. Не просто видеть окончательные результаты, но, что более важно, мы принимаем меры. Я думаю, что это то, на что всем следует обратить больше внимания в данный момент.

Автор: Ли Чаофань, Мо Чунюй

# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo