Первая остановка метавселенной для обычных людей, кто гид?

Для любителей кино захват лица — это понятие, которое знакомо и незнакомо. Оно знакомо, потому что захват движения и захват лица широко используются в магических фильмах. Многие классические нечеловеческие персонажи полагаются на эти две технологии для завершения. Именно технологический прогресс позволяет нам увидеть великолепное Средиземье и его разнообразные расы во «Властелине колец», инопланетные чудеса в «Аватаре» и связь между людьми и другими видами на экране.

Это незнакомо, потому что для большинства людей захват лица — это технология, о которой слышали, но не испытали на себе. Мы были зрителями этой технологии, а не свидетелями.

Но кривая технического прогресса часто имеет две ветви: одна идет вперед и идет дальше, другая идет вниз, от высоких издержек к дешевизне, от воздействия на несколько человек к благу миллионов людей. Иногда две нити также идут рука об руку и переплетаются, создавая большую энергию.

Захват лица в метавселенной – это сложно

В фильме 2016 года «Warcraft», основанном на захвате движения и захвате лица, кандидат азиатской травы Ву Янзу сыграл уродливого и злого орка Гул'дана.

В области захвата движения и захвата лица есть даже суперзвезда по имени Энди Серкис, сыгравший ключевого персонажа Голлума в трилогии «Властелин колец», и главного героя трилогии «Восстание планеты обезьян». Горилла Цезарь.

▲ В прошлом году Microsoft запустила демо-версию Metaverse.

Фильмы — это виртуальный мир, за пределами которого мы находимся, а Метавселенная — это виртуальный мир, в котором мы сможем жить в будущем. Однако пользователи, попробовавшие VR-приложения Metaverse, возможно, уже поняли, что «я» здесь далеко от настоящего «я», моделирование здесь грубое, и в начале даже невозможно отобразить ноги пользователя. , не говоря уже о богатых выражениях пользователей.

Поэтому иногда, будучи первопроходцем, я буду завидовать технологии захвата лица в киноспектаклях и надеяться, что в метавселенной я не буду мультяшным злодеем, как в шоу QQ, а смогу путешествовать по континенту Средиземья, Азероту. фантазеры мира Шри-Ланки или планеты Пандора.

Но это не без исключений.Первое реалити-шоу виртуальной реальности iQIYI «Приключение гласных» привнесло много крутых технологий в производство реалити-шоу, позволив гостям войти в виртуальный мир——— Континент гласных, приступая к веселое и веселое приключение.

Возможно, это один из немногих материалов Метавселенной, обладающих «ощущением утонченности». Это ощущение утонченности проистекает из «духовного сходства» между виртуальным персонажем и соответствующей звездой. За этим «духовным сходством» стоит вышеупомянутый захват лица. технологии.

Очевидно, что в Метавселенной промышленный захват лица на уровне фильмов, доступный лишь нескольким людям, не является инклюзивной технологией.Если захват лица можно сделать с помощью мобильного телефона, он, естественно, лучший.

Однако, естественно, трудно совершить скачок от промышленного уровня к потребительскому.

В современных зрелых промышленных фильмах реализация точного захвата лица почти следует закону высокого ввода и высокого качества вывода.

▲ До и после создания спецэффектов «Аватара»

Инвестиции здесь включают в себя и время, и деньги.Возьмите для примера «Аватар», который когда-то принес нам визуальное зрелище.У режиссера Джеймса Кэмерона ушло 10 лет от идеи съемок до посадки проекта.

В массовке каждый актер должен отметить свое лицо черными точками, которые затем фиксируются камерой перед ним, при этом несколько камер распределены вокруг, чтобы запечатлеть движения тела.

Когда все сюжеты отсняты, это не значит, что кинопроизводство окончено, понадобится примерно вдвое, а то и в два раза больше съемочного времени, чтобы подобрать мимику и телодвижения, собранные камерой, к виртуальным персонажам.

▲ До и после создания спецэффектов «Аватара»

А для того, чтобы добиться достаточно шокирующего результата, часто требуется огромная команда постпродакшна, чтобы доделать его вместе. Это своего рода традиционная сборочная линия промышленного класса, хотя эффект хороший, точность полная, и она идет по пути, сопряженному с большими трудностями и отказом от скорости.

Скорость и точность захвата лица чем-то похожи на рыбу и лапу медведя.В области разработки алгоритмов ИИ они и энергопотребление обычно образуют невозможный треугольник, который является «трилеммой».С точки зрения непрофессионала, это трилемма выбрать.

На человеческом лице есть 43 мышцы, чтобы вместе выражать наши эмоции.Многие выражения сложны и тонки, и разница между разными выражениями часто разделена только рекой.

Чтобы точно выразить истинные чувства в метавселенной, или передать микровыражения лица в реальности в виртуальный мир, точность захвата должна достигать определенного уровня, и необходимо точно уловить сотни характерных точек, а затем сотрудничать с моделью Алгоритмы восстановлены.

Стоит отметить, что «метавселенная», о которой мы упоминали, не является творением. Она может иметь определенный объем пост-обработки. Если вы хотите почувствовать эффект присутствия и добиться обратной связи в реальном времени, захват лица и общение должны быть синхронизированы и рассчитаны. и обратная связь в режиме реального времени.

Даже по стандарту 24 кадра фильма все равно нужно обрабатывать 24 кадра высокоточных изображений в секунду в режиме реального времени, захватывать ключевые точки из сотен характерных точек и завершать реконструкцию выражений.

Это уже огромный объем работы только для захвата сложных и динамичных человеческих лиц.Помимо человеческих лиц, есть много-много внешних факторов и чрезвычайных ситуаций, которые также будут влиять на эффект захвата лица.В Метавселенной это невозможно для нам создать киностудию, профессиональное освещение и компьютер для постобработки для выполнения этой работы.

Все происходит и записывается сейчас.

Поэтому, если вы хотите получить лучшие результаты, вам нужно добавить объективные и субъективные факторы, такие как различные изменения света и тени, вибрация шлема, камеры и другого надетого оборудования, а также частичная окклюзия лица.

Короче говоря, захват лица может показаться не более чем технологией захвата изображения, но на самом деле он должен учитывать различные информационные точки, связанные с лицом, а также изменения микровыражения, условия освещения и другие факторы.

Он не представляет мышечные изменения лица в виртуальном мире один за другим, а передает эмоции в реальности точно и в режиме реального времени.

Почему Сяолун может добиться захвата лица в Метавселенной?

Фактически, для записи и представления мимики у нас уже есть соответствующие приложения, то есть «анимированные смайлики», которые большинство производителей добавили в чат-приложения.

Он действует как развлекательная функция, которая обогащает общение в чате, не требует высокой точности и может записывать только несколько характерных выражений, на самом деле трудно представить тонкие выражения.

Для программы iQiyi «Приключение гласных» формы «анимированных смайликов» далеко не достаточно.

Проблема заключается в том, что алгоритм захвата лица может иметь как рыбу, так и медвежью лапу, а сложность захвата человеческого лица выше, чем у захвата движения человека и захвата лица животного.

Таким образом, аппаратная, программная и аппаратная поддержка программного обеспечения, эти три уровня, определяют, сможет ли Snapdragon хорошо справляться с захватом лиц, а это означает, что для этого требуется мощная базовая вычислительная мощность платформы чипа мобильного телефона и поддержка нейронной сети. алгоритмы.

Задолго до того, как концепция Метавселенной стала популярной, алгоритма обработки изображений чипа Snapdragon было достаточно для распознавания определенных данных лица, и посредством соответствующего алгоритма проводилась целевая оптимизация.

Тем не менее, это первый случай захвата лица или использования технологии захвата лица для участия в создании «Приключения гласных».

Во-первых, отладка соответствующего алгоритма на основе оригинальной технологии.Начните с точности, обучите сложную модель с огромным объемом вычислений, максимально охватите все возможные выражения, а затем многократно сравнивайте и отлаживайте, чтобы удовлетворить потребности запись программы. .

Принимая во внимание уменьшение объема вычислений, выполняется «обрезной расчет», другими словами, нагрузка снижается, но предпосылка заключается в уменьшении объема вычислений при сохранении определенной точности захвата лица.

Ранее алгоритм ИИ для расчета лицевых данных использовал процессор мобильного телефона, который можно было поддерживать только на скорости 30 кадров в секунду при сохранении определенной точности, а в процессе высокочастотного расчета он легко вызывал накопление тепла устройства. , и в каком-то сложном свете Ситуация застряла под выражением.

Чтобы решить проблему энергопотребления и времени автономной работы, Qualcomm представила инструмент Snapdragon SNPE (Snapdragon Neural Processing Engine, который представляет собой программное обеспечение времени выполнения для ускоренной глубокой нейронной сети Snapdragon) для оптимизации этого алгоритма и включила ИИ. двигатель.

Таким образом, исходный алгоритм ИИ может работать со скоростью 60 кадров в секунду и может продолжать работать в течение трех часов, что почти идеально решает проблему точности и скорости, позволяя «вы можете иметь и то, и другое».

Что более шокирует, так это то, что когда программа была записана, это решение было основано только на чипе Snapdragon 8+ предыдущего поколения, и движок AI также был предыдущего поколения.

Еще один момент заключается в том, что в предварительно экспонированных кадрах записи лица звезд, участвовавших в записи, не имели традиционных точек интенсивного сбора данных, а были одеты только в шлем и терминал мобильного телефона Android для стационарного оборудования.

Нет необходимости в специальных маркерах или многоугольной записи с нескольких камер.Мобильный телефон Android на базе чипа Snapdragon может завершить сбор 300 характерных точек на лице и использовать AI-движок терминала для анализировать сложный алгоритм ИИ для рендеринга в реальном времени.

Для захвата лица точность и скорость, наконец, достигаются за счет алгоритмов, механизмов искусственного интеллекта и аппаратного ускорения NPU. С другой стороны, для "Vowel Adventure" техническая мощь Сяолуна превратила эту программу из замысла в реальное действие.

Для всех видов помех, кроме человеческих лиц, Qualcomm Snapdragon и Xiangxin Technology также сделали технологические прорывы для различных деталей.

Например, когда артист поет, потому что микрофон находится очень близко к лицу, это приведет к серьезной окклюзии захвата лицом к лицу.Это необходимо учитывать в техническом проекте.В конце концов, они поняли, что даже если рот частично закрыт, они все равно могут стабильно фиксировать движения рта и поддерживать виртуальную реальность Стабильность изображения лица, избегая «подергивания, тряски» и других ситуаций, которые влияют на эффект на месте из-за недостаточного захвата.

Первая остановка метавселенной, Сяолун в качестве проводника

Видно, что «Приключение гласных» доказало, что в будущем мы можем использовать мобильный телефон на мобильной платформе серии Snapdragon 8, чтобы завершить захват лица, как звезда, чтобы отражать и выражать себя в мире метавселенной. Как и маленький призрак Ван Линкай, образ причудливого клоуна, но выражение его собственных эмоций.

▲ Нажмите, чтобы воспроизвести

В прошлом мы можем ясно видеть различные достижения, вызванные прогрессом SoC для мобильных телефонов: от одноядерного процессора к многоядерному процессору, чтобы мобильный телефон больше не зависал; прогресс графического процессора, игры, в которые можно играть , от "Angry Birds" до десктопного уровня "Yuanshin", а частота кадров мобильной игры, от 30fps до уровня 120fps, сеть аналогична, благодаря прогрессу модема скорость сети тоже изменилась с кб на мб на текущий уровень гб.

Что еще более важно, как упоминалось ранее, технологии должны двигаться не только вперед, но и вниз.Если интерфейс текущей мобильной операционной системы по-прежнему требует ввода командных символов вместо текущего графического сенсорного интерфейса, то вычислительная мощность чипа Snapdragon Нет независимо от того, насколько она сильна, трудно поставлять сотни миллионов продуктов каждый год.

Когда Xiaolong и Xiangxin Technology сотрудничали, чтобы завершить технологию захвата лица со сверхнизким порогом для развлекательных шоу на тему метавселенной, возникла задача не только преодолеть технические трудности, но и создать достаточно простую, удобную в использовании, интеллектуальную систему. и стабильный По сравнению с технологиями пользователями этой технологии являются не технические специалисты и разработчики, а съемочные группы и актеры кино и телевидения.

За всеми обычными приземлениями яблок стоит сложная теория гравитации, похожая на прогресс Snapdragon, поддерживающий захват лица, кто за этим стоит?

Ответ: Qualcomm AI Engine.

По сравнению с ЦП и ГП процессора наличие вычислительного движка ИИ слабее.Несмотря на то, что вычислительная мощность каждого поколения движка ИИ увеличивается в геометрической прогрессии, восприятие, которое оно приносит, кажется немного слабым?

Возьмите в качестве примера эту быструю и хорошую презентацию захвата лица, движок ИИ в обычных устройствах достиг значительного уровня.

В обычное время вычислительная мощность движка ИИ увеличивается в геометрической прогрессии, и каждая выполняемая вами операция, такая как разблокировка, включение камеры, пробуждение голосового помощника и т. д., не окружена ИИ. двигатель все время.

Высокая вычислительная мощность, обеспечиваемая движком ИИ, ускоряет выполнение этих операций, заставляя вас не знать о существовании технологий, но в окружении лучшего взаимодействия человека с компьютером.

▲ Нажмите, чтобы воспроизвести

Движок Qualcomm AI сияет не только в захвате лиц и создании аватаров в программе «Vowel Adventure». Если метавселенная хочет достаточного погружения, она сначала должна иметь такое же восприятие, как и реальный мир, например, зрение и слух.

Точный захват лица и захват движений можно отнести к зрению, а слух может обеспечить высококачественный звук с малой задержкой с помощью технологии Snapdragon Sound.

За этими технологиями стоит участие ИИ-движка Qualcomm, и помощь ИИ-движка также стала ключом к метавселенной.

Если вы сравните аватары на некоторых так называемых платформах Метавселенной в стране и за рубежом, таких как Meta’s Horizon, вы обнаружите, что только изображения, представленные в «Приключении гласных», могут быть привлекательными для обычных людей. Разрыв в изображении здесь — это полностью разница между сетью 2G и сетью 4G.

«Я» в виртуальном мире ближе к реальному «Я», так что метавселенная возможна.

Технология здесь является связующим звеном, соединяющим «я» в двух мирах. «Я» упал на землю в другом виртуальном мире, ковыляя, и вышел из Деревни новичков. Первая остановка этой метавселенной, мобильный Snapdragon платформа ,. несомненно , руководство.

#Добро пожаловать, обратите внимание на официальный публичный аккаунт Айфанер в WeChat: Айфанер (идентификатор WeChat: ifanr), более интересный контент будет представлен вам как можно скорее.

Ай Фанер | Оригинальная ссылка · Просмотреть комментарии · Sina Weibo