Из-за этого Маск и Терракотовая армия танцевали «Третий субъект».

12 января, 2024 Дядя Влад

Одно-единственное фото может заставить Маска, Месси и других знаменитостей волшебно танцевать, и даже можно устроить популярный во всем Интернете сюжет номер три.

Это не какая-то передовая технология искусственного интеллекта. Недавно добавленная функция Alibaba Tongyi Qianwen «Король национального танца» на мобильном терминале может реализовать это. Есть также 12 популярных танцевальных шаблонов, таких как третий предмет, медленное раскачивание DJ, танец-призрак и танец блаженства. Вы сами выбираете.

Введите пароли, такие как «Король национального танца» и «Король танца Тонги» в Тонги Цяньвэнь, затем выберите свой любимый танец в интерфейсе прыжка и загрузите фотографию в полный рост. Создание танца, который одновременно является физическим, займет всего десять минут. и духовный.Король был так великолепно «быстро завершен».

Неожиданно Эйнштейн с густыми бровями и большими глазами мог в одно мгновение превратиться в модного мужчину, причем ритм его движений не слишком сильный.

▲ Изображение предоставлено: Simon_Awen

Между Терракотовыми Воинами и Королем Танца есть только одно фото, и эту позу невозможно затмить.

Король танца в мире фигурок доминирует, как они могут игнорировать меня, Николаса Чжао Си, «Короля азиатского танца»?

▲ Изображение взято с сайта: Gongfu Finance

Маленькие персонажи, которых я нарисовала, танцевали веселее меня. Кажется, мне пора записаться на уроки танцев.

▲ Фотография: Брат Дао Ху Кан

Крайон Шин-чан «чешет голову и принимает позы», и его детство мгновенно возвращается.

▲ Фотография: собака Паньхуа

Магия искусственного интеллекта, которая делает фотографии «живыми»

Так как же исследовательская группа Alibaba в области искусственного интеллекта заставила фотографии двигаться?

Выпуск функции Tongyi Dance King на самом деле представляет собой конкретное применение и реализацию технологии AnimateAnyone.

Согласно документу, опубликованному исследовательской группой Alibaba AI, диффузионные модели в настоящее время являются основным направлением в области исследований визуальной генерации, однако в области генерации изображения в видео все еще существуют такие проблемы, как локальное искажение, размытие деталей. и дрожание частоты кадров.

В связи с этим исследовательская группа Alibaba в области искусственного интеллекта предложила новый алгоритм искусственного интеллекта Animate Anybody, основанный на модели диффузии. Функция этого алгоритма заключается в преобразовании статического изображения персонажа в анимированное видео, при этом движениями персонажа в видео можно точно управлять путем ввода последовательности поз.

▲Демонстрация принципа раскладной книги.Фото из: @flipping book Andymation

Следует отметить, что в видеопроизводстве, особенно в анимационном производстве, движения персонажей завершаются посредством покадровых переходов.Принцип аналогичен флип-книге, с которой я часто играл в детстве.Каждая страница статический рисованный черновик, который можно быстро перевернуть. Заставить экран двигаться благодаря ошибке человеческого глаза «постоянство зрения».

Самая большая трудность при перемещении изображения — «представить» следующие действия и сцены, при этом нет никакой отсылки до или после. Таким образом, на официальном сравнительном дисплее вы можете видеть, что традиционная технология "DisCO" неоднократно использовалась в качестве негативного учебного материала. Ее сильный эффект искажения может только заставить предмет двигаться, но искривленная форма тела и странные эффекты движения – нет. вообще достоин называться работой.

Поэтому, чтобы решить проблему согласованности изображения видеосимволов, они представили сеть эталонных изображений ReferenceNet, которая может захватывать информацию о пространственных деталях в эталонном изображении.

Затем они объединили ReferenceNet с UNet, что позволило UNet понять, где и какие детали следует генерировать при создании целевого изображения, чтобы сгенерированное изображение могло полностью удалить шум, сохраняя при этом ключевые детали в эталонном изображении. .

Помимо фиксации деталей, необходимо также обеспечить управляемость позы. С этой целью команда AI Alibaba также разработала легкий направляющий выступ Pose Guider, который объединяет сигналы управления позой в процессе шумоподавления, чтобы гарантировать, что сгенерированная последовательность анимации соответствует указанной позе.

Учитывая стабильность видео, они также представили модуль генерации синхронизации, позволяющий модели изучать связь между кадрами, чтобы сгенерированное видео было плавным и последовательным, а не фрагментированным, а сохранение деталей с высоким разрешением улучшает качество изображения. и более стабильный.

По сравнению с предыдущими методами этот метод позволяет эффективно поддерживать единообразие внешнего вида видеоперсонажей без таких проблем, как изменение цвета одежды.В то же время видео получается плавным и четким, без мерцания и дрожания, а также поддерживает динамическую анимацию любого персонажа.

Например, Месси играет в топ-стиле, любимом людьми среднего и пожилого возраста, и поднимает руку, чтобы поздороваться с вами.

Двухмерные персонажи двигаются в неподвижном состоянии, а когда танцуют хаус-дансы, производят не меньшее впечатление, чем реальные люди.

Даже Железный Человек присоединился к веселью, поддерживая форму и растягивая мышцы, и в этом не было ничего плохого.

В области генерации видео с помощью искусственного интеллекта накопление технологий, лежащих в основе Alibaba, выходит за рамки этого. Например, в прошлом месяце Alibaba также выпустила еще одну технологию генерации видео — DreaMoving. Это управляемая система генерации видео на основе диффузии для создания высококачественных персонализированных портретных видеороликов.

Преимущество этой технологии в том, что она не требует глубоких знаний сложных методов производства видео.Пользователям достаточно дать некоторые рекомендации, например, фрагмент текста или эталонное изображение, и DreaMoving может создавать очень реалистичные видеоролики.

Другими словами, если заданы целевая личность и последовательность поз, DreaMoving может создать видео любого человека/объекта, танцующего где угодно, на основе последовательности поз.

Проще говоря, DreaMoving может автоматически генерировать различные персонализированные видео персонажей с помощью простых входных данных, таких как изображения лиц, последовательности действий и текст, обеспечивая точный контроль над созданием видео.

Конкретные этапы разборки: сначала введите изображение лица человека, чтобы сгенерировать изображение всего тела человека в видео, затем введите последовательность поз, чтобы точно контролировать движения персонажа в видео, и, наконец, введите текст для более полного управления генерацией видео. эффект.

Например, улыбающаяся девушка, стоящая на пляже у моря, одетая в светло-желтое платье с длинными рукавами.

Мужчина танцует перед Египетской пирамидой в костюме и синем галстуке.

Девушка в голубом платье улыбается и танцует во французском городке.

Индустрия генерации видео с помощью искусственного интеллекта сходит с ума

На самом деле, в области генеративного искусственного интеллекта отправная точка в области создания видео с помощью искусственного интеллекта еще не слишком поздно.До появления ChatGPT многие производители уже сделали ставку на этот путь, например Microsoft и Google. средства применялись, но эффект минимальный.

Основываясь на долгосрочном накоплении технологий всей отрасли, появление модели диффузии позволяет производителям увидеть потенциальные перспективы создания видео с помощью искусственного интеллекта. Он имеет очевидные преимущества перед ранними моделями, такими как RNN: он может генерировать более связные и четкие изображения или видеопоследовательности, ускоряя итеративный процесс генерации видео.

Основные инструменты на рынке также внесли отличные дополнения на этой основе, заставив трек генерации видео AI снова произвести фурор и действительно продемонстрировав удивительную взрывную тенденцию.

В конце прошлого года Runway Gen-2 получила крупное обновление с увеличением разрешения до 4K и серьезным прорывом в точности и постоянстве эффектов генерации видео.Неделю спустя функция Motion Brush была запущена снова. одной кистью. Вы можете заставить статичные объекты двигаться.

Сразу после этого компания Stability AI, «костяк» Wenshengtu, также выпустила Stable Video Diffusion, добавив еще один бум в область генерации видео с помощью ИИ.

Pika 1.0, с другой стороны, с момента своего дебюта завоевала расположение многих боссов Кремниевой долины благодаря более простому созданию видео, понятному частичному редактированию видео и созданию видео более высокого качества. От генерации до постпроизводства вы можете выполнить комплексную операцию самостоятельно.

Модель WALT, запущенная командой Ли Фейфея в сотрудничестве с Google, также может генерировать реалистичные 2D/3D-видео или анимацию на основе подсказок на естественном языке/изображениях, а эффект генерации сопоставим с эффектом Runway, Pika и других экспертов.

Эти инструменты создания видео с использованием искусственного интеллекта добились больших успехов главным образом в двух измерениях — качестве и количестве. Что касается качества, эти продукты искусственного интеллекта продолжают внедрять более мощные архитектуры моделей и использовать более масштабные и качественные данные для обучения, поэтому качество изображения, плавность и точность видео, созданных искусственным интеллектом, продолжают улучшаться.

В количественном отношении длина генерируемых видеороликов также постоянно инволюционирует, достигая двузначных секунд, а сочетание сцен и событий становится все более богатым. В будущем, при дальнейшем улучшении вычислительной мощности, можно будет создавать высококачественные видеоролики, которые будут длиться несколько часов.

Технологии, плавающие в облаке, в конечном итоге будут применяться на земле, а рост производства видео с помощью искусственного интеллекта создаст огромный рынок голубого океана. «Король национального танца» Тонги Цяньвэня, основанный на глубоком накоплении технологий, является еще одним продуктом, основанным на этой бизнес-логике.

Это не только откроет конкуренцию с Alibaba и другими компаниями и ускорит прогресс всей отрасли, но и даст нам возможность ощутить больше возможностей, предоставляемых технологией генерации видео с помощью искусственного интеллекта.

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo