Новая модель искусственного интеллекта Meta может превращать текст в 3D-изображения менее чем за минуту

3 июля, 2024 Дядя Влад

массив 3D-изображений, созданных Meta 3D Gen — Мета

Последний набег Meta на создание изображений с помощью искусственного интеллекта оказался быстрым. Во вторник компания представила свою новую модель «3D Gen» — «современный быстрый конвейер» для преобразования входного текста в высококачественные 3D-изображения, которые можно вывести менее чем за минуту.

Более того, как сообщается, система способна применять новые текстуры и скины как к сгенерированным, так и к созданным художником изображениям с помощью текстовых подсказок.

Согласно недавнему исследованию исследовательской группы Meta Gen AI, 3D Gen будет не только предлагать текстуры высокого разрешения и карты материалов, но также поддерживать физический рендеринг (PBR) и возможности генеративного ретекстурирования.

Новое исследование GenAI в Meta, представляющее Meta 3D Gen: новую систему для сквозного создания 3D-ресурсов из текста за <1 мин.
Meta 3D Gen — это новая комбинированная система искусственного интеллекта, которая может генерировать высококачественные 3D-ресурсы, включая как текстуры высокого разрешения, так и сквозные карты материалов… pic.twitter.com/rDD5GzNinY
— AI в Meta (@AIatMeta) 2 июля 2024 г.

По оценкам команды, среднее время вывода при создании исходной 3D-модели с использованием модели 3D AssetGen компании Meta составляет всего 30 секунд. Затем пользователи могут вернуться и либо улучшить существующую текстуру модели, либо заменить ее чем-то новым, как с помощью текстовых подсказок, так и с помощью Meta 3D TextureGen. Этот процесс, по мнению компании, должен занять не более 20 дополнительных секунд времени вывода.

«Объединив свои сильные стороны, — написала команда в аннотации к исследованию, — 3DGen представляет 3D-объекты одновременно тремя способами: в пространстве просмотра, в объёмном пространстве и в УФ-пространстве (или текстурном)». Команда Meta сопоставила свою модель 3D Gen с рядом базовых показателей отрасли и сравнила их по множеству факторов, включая точность текстовых подсказок, визуальное качество, детализацию текстур и артефакты. Благодаря объединению функций обеих моделей изображения, созданные в результате интегрированного двухэтапного процесса, были выбраны аннотаторами по сравнению с их одноэтапными аналогами в 68% случаев.

Конечно, система, обсуждаемая в этой статье, все еще находится в стадии разработки и еще не готова к публичному использованию, но технические достижения, которые иллюстрирует это исследование, могут оказаться трансформационными в ряде творческих дисциплин, от игровых и киноэффектов до приложений виртуальной реальности.

Предоставление пользователям возможности не только создавать, но и редактировать 3D-контент, как быстро, так и интуитивно, могло бы радикально снизить барьер для входа в такую сферу деятельности. Нетрудно представить, какое влияние это может оказать, например, на разработку игр.