Nvidia превращает простые текстовые подсказки в готовые к игре 3D-модели

21 марта, 2024 Дядя Влад

Красочный коллаж изображений, созданный с помощью LATTE3D от Nvidia. — Нвидиа

Nvidia только что представила свою новую модель генеративного искусственного интеллекта, получившую название Latte3D, во время GTC 2024. Latte3D, похоже, представляет собой ChatGPT на экстремальных стероидах. Я — модель преобразования текста в 3D, которая принимает простые короткие текстовые подсказки и за секунду превращает их в 3D-объекты и животных. Latte3D работает намного быстрее, чем его старые аналоги, и работает как виртуальная 3D-печать, которая может пригодиться авторам во многих отраслях.

Latte3D был создан, чтобы упростить создание 3D-моделей для многих авторов, например тех, кто работает над видеоиграми, дизайнерскими проектами, маркетингом или даже машинным обучением и обучением робототехнике. В демо-версии модели от Nvidia она выглядит очень простой в использовании. После короткой текстовой подсказки ИИ создает 3D-модель и вскоре после этого дорабатывает ее с гораздо большей детализацией. Хотя конечный результат далеко не так реалистичен, как Sora от OpenAI , это не должно быть так — это способ ускорить создание ресурсов вместо того, чтобы создавать их с нуля.

Модель генерирует несколько различных вариантов на выбор пользователя, и Nvidia заявляет, что эти формы можно «оптимизировать для более высокого качества в течение нескольких минут». Затем проекты можно экспортировать на различные платформы, такие как Omniverse от Nvidia, и настроить их в соответствии с желаемым конечным результатом. Nvidia обучила Latte3D, используя свои графические процессоры Ada A100 Tensor Core, и поддержала обучение с помощью подсказок ChatGPT, чтобы подготовить его к взаимодействию с реальными пользователями.

На данный момент Latte3D может генерировать только объекты и животных. С этой целью он, похоже, отлично справляется с распознаванием различных животных, текстур и типов объектов. Nvidia продемонстрировала эти возможности, представив такие объекты, как обычный журавль амигуруми (вязаный крючком) или кот-сфинкс в технике оригами. Модель научили распознавать различные виды и, таким образом, отличать итальянскую борзую от сиба-ину.

Преобразование текста LATTE3D в 3D-генеративную модель искусственного интеллекта от NVIDIA Research

Создатели, которые хотят использовать Latte3D для большего, могут обучить его на другом наборе данных, будь то растения или предметы домашнего обихода, а затем использовать его в своих целях. Nvidia приводит здесь некоторые интересные варианты использования, например, обучение личных роботов-помощников перед их развертыванием. Легко представить, что Latte3D пригодится разработчикам игр, но его потенциал выходит далеко за рамки игровых сценариев.

Санджа Фидлер, вице-президент по исследованиям искусственного интеллекта в Nvidia, отметила, насколько быстрее Latte3D по сравнению со своими предшественниками: «Год назад моделям искусственного интеллекта требовался час, чтобы сгенерировать 3D-изображения такого качества — и нынешнее состояние дел теперь составляет от 10 до 12 секунд. Теперь мы можем получать результаты на порядок быстрее», — сказал Фидлер.

Недавние объявления, связанные с использованием искусственного интеллекта в разработке игр, являются довольно новаторскими, и Latte3D от Nvidia присоединяется к растущему списку инструментов, которые однажды могут полностью изменить процесс создания игры. Например, совсем недавно Nvidia представила неигровых персонажей (NPC), диалоги которых полностью генерируются искусственным интеллектом . Между тем, последнее обновление Unreal Engine позволяет создавать в играх визуальные эффекты кинематографического качества в режиме реального времени, и все это с помощью машинного обучения.