Искусство аватара уже здесь. Apple выпускает новую технологию искусственного интеллекта, позволяющую создать ваш «цифровой аватар» за 30 минут.

20 декабря, 2023 Дядя Влад

В то время как ряд технологических гигантов яростно конкурируют в области генеративного искусственного интеллекта, Apple, похоже, хранит молчание.

Сегодня Apple опубликовала исследовательскую работу по генеративному искусственному интеллекту, которая редко демонстрирует нам их последний прорыв в этой области.

В этой статье подробно описана генеративная технология искусственного интеллекта под названием HUGS (Human Gaussian Splats). Короче говоря, благодаря этой технологии мы можем даже создать «цифровой аватар» человека с помощью короткого видео.

Давайте ближе к делу, давайте посмотрим на конкретный демонстрационный эффект.

По словам представителей Apple, хотя технология рендеринга на основе нейронных сетей за последние годы добилась значительных улучшений в скорости обучения и рендеринга, эта технология в основном фокусируется на фотограмметрии статичных сцен и ее трудно применить к гибким движущимся моделям людей.

Чтобы решить эту проблему, Исследовательский центр машинного обучения Apple и Институт интеллектуальных систем Макса Планка совместно предложили систему искусственного интеллекта под названием HUGS.После обучения HUGS может автоматически отделяться от видео в течение 30 минут.Статический фон и полностью динамически меняющийся цифровой аватар.

Как именно это делается?

Их основная идея — использовать трехмерное распределение Гаусса (3DGS) для представления людей и сцен. Вы можете понимать распределение Гаусса (GS) как параметризованное трехмерное колоколообразное тело с центральным положением, размером объема и углом поворота.

Если мы разместим множество этих трехмерных колоколообразных тел в разных местах комнаты, отрегулируем их положение, размеры и углы и объединим их вместе, мы сможем реконструировать структуру комнаты и людей в сцене. Распределение Гаусса очень быстро обучается и визуализируется, что является самым большим преимуществом этого метода.

Следующая проблема, с которой мы сталкиваемся, заключается в том, что распределение Гаусса само по себе относительно простое, и сложно точно смоделировать сложную структуру человеческого тела, просто сложив их вместе.

Поэтому они сначала использовали модель человеческого тела под названием SMPL, которая представляет собой широко используемую и относительно простую модель формы человеческого тела, которая обеспечивает отправную точку для распределения Гаусса, фиксирующего базовую форму и положение человеческого тела.

Хотя модель SMPL обеспечивает базовую форму человеческого тела, она не очень точна в обработке некоторых деталей, таких как складки одежды, прически и т. д., а распределение Гаусса может в определенной степени отклоняться и модифицировать модель SMPL.

Таким образом, они могут более гибко настраивать модель, лучше фиксировать и моделировать эти детали, а также придавать конечному цифровому аватару более реалистичный вид.

Разделение — это только первый шаг, вам также необходимо заставить построенную модель человека двигаться. С этой целью они разработали специальную сеть деформации, чтобы научиться контролировать вес движения каждого распределения Гаусса (представляющего форму человеческого тела и сцены) в различных позах скелета, что является так называемым весом LBS.

Эти веса сообщают системе, как должно меняться распределение Гаусса, когда человеческий скелет движется для имитации реального движения.

Кроме того, они не только прекратили проектирование сети, но и оптимизировали распределение Гаусса цифрового аватара, распределение Гаусса сцены и сеть деформации, наблюдая за реальными видео движений человека. Таким образом, цифровой аватар может лучше адаптироваться к различным сценам и действиям, делая его более реальным.

По сравнению с традиционными методами, скорость обучения этого метода значительно улучшена, как минимум в 100 раз, а также позволяет рендерить видео высокой четкости со скоростью 60 кадров в секунду.

Что еще более важно, этот новый метод обеспечивает более эффективный процесс обучения и меньшие вычислительные затраты, иногда требуя всего 50–100 кадров видеоданных, что эквивалентно 24 кадрам видео всего за 2–4 секунды.

Что касается выпуска этого достижения, отношение пользователей сети продемонстрировало поляризованную тенденцию.

Цифровой блоггер @mmmryo восхитился моделированием кожи, одежды, волос и других деталей с помощью генеративной модели и предположил, что эта технология, вероятно, будет специально разработана для iPhone или Vision Pro.

Ученый Samsung Коста Дерпани появился в зоне комментариев исследователя Apple Анурага Ранджана и выразил полную похвалу и подтверждение этого достижения.

Однако некоторые пользователи сети не поверили этому, например, пользователь X @EddyRobinson поставил под сомнение фактический эффект.

Apple объявила, что опубликует код для этой модели, но на момент публикации нажатие на ссылку официального кода, предоставленную Apple, приведет только к «404».

Некоторые пользователи сети высказали рациональные мнения:

Стоит отметить, что у автора этой статьи знакомое китайское лицо.

Основной автор статьи Джен-Хао Рик Чанг родом из Тайваня, Китай. Прежде чем присоединиться к Apple в 2020 году, он получил докторскую степень на факультете ECE Университета Карнеги-Меллон.

Академическая карьера Чжан Жэньхао легендарна: во время учебы в Университете Карнеги-Меллон он учился у профессора Виджаякумара Бхагаватулы и профессора Асвина Санкаранараянана, обоих мастеров в области обработки изображений.

Посвятив первые три года области машинного обучения, Чжан Жэньхао из исследовательского интереса решительно сменил направление исследований и начал углубляться в совершенно разные области оптики.С тех пор он последовательно работает в SIGGRAPH в этой области. компьютерной графики и интерактивных технологий, а также в области машинного обучения ICML International.Опубликовал множество шедевров на научных конференциях.

Эта статья Apple является последним результатом исследования, соавтором которого он является. Наконец, указан конкретный адрес статьи. Более подробную информацию можно найти по ссылке ниже.

https://arxiv.org/abs/2311.17910

Надо сказать, что трек создания видео с помощью искусственного интеллекта в этом году просто бесчеловечен. Появление Runway привело генеративный искусственный интеллект в священные залы кино. «Мгновенная вселенная», поддерживаемая технологией Runway, демонстрирует магию создания видео с помощью искусственного интеллекта. Резко и ярко.

Затем Pika 1.0 от Pika Lab забрала «патент» на создание видео с помощью искусственного интеллекта из рук профессиональных создателей. Благодаря более простому вводу текста, понятному редактированию видео и созданию видео более высокого качества каждый имеет возможность стать собственным видеорежиссером.

Независимо от того, являетесь ли вы профессионалом или любителем, вы также можете использовать генератор человеческой анимации MagicAnimate, чтобы развлечься. Просто вводите изображения людей в соответствии с заранее заданной последовательностью действий для создания динамических видеороликов.

Движущимся главным героем может быть ваше селфи, ваш питомец или знакомая известная картина. Все можно переместить, используя свое воображение.

Конечно, что может быть более привлекательным, так это модель генерации видео VideoPoet, запущенная сегодня командой Google, которая поддерживает различные функции генерации видео и аудио и может даже позволить большим моделям управлять полной генерацией видео.

VideoPoet не только может генерировать 10-секундные видеоролики за раз, но также может решить текущую проблему невозможности создания видео с большими движениями. Это универсал в области создания видео. Единственным недостатком может быть то, что он «живет» в блоге Google.

Условно говоря, последнее достижение Apple нацелено на популярную в настоящее время технологию, подобную якорям искусственного интеллекта. Короткое видео, которое может занять менее нескольких секунд, может создать ваш «цифровой аватар». Увидеть может не поверить. Как мы можем доказать это в будущем что «Я Это я», возможно, стоит снова беспокоиться.

Vision Pro будет выпущен в США в следующем году, и результаты исследований этой статьи, вероятно, являются заранее спрятанной пасхалкой.

# Добро пожаловать на официальную общедоступную учетную запись aifaner в WeChat: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo