Я протестировал будущее генерации изображений с помощью ИИ. Это поразительно быстро.

Одной из основных проблем искусственного интеллекта является общеизвестно высокая потребность в мощности и вычислительных ресурсах, особенно для таких задач, как создание мультимедиа. На мобильных телефонах, когда дело доходит до встроенной работы, только несколько дорогих устройств с мощным процессором могут использовать этот набор функций. Даже при масштабной реализации в облаке это обходится дорого .

Nvidia, возможно, спокойно решила эту проблему в партнерстве с ребятами из Массачусетского технологического института и Университета Цинхуа. Команда создала гибридный инструмент создания изображений ИИ под названием HART (гибридный авторегрессионный преобразователь), который по сути сочетает в себе два наиболее широко используемых метода создания изображений ИИ. Результатом является невероятно быстрый инструмент с значительно меньшими вычислительными требованиями.

Чтобы дать вам представление о том, насколько он быстр, я попросил его создать изображение попугая, играющего на бас-гитаре. Примерно через секунду он вернулся со следующей картинкой. Я едва мог следить за индикатором выполнения. Когда я нажал ту же подсказку перед моделью Google Imagen 3 в Gemini , это заняло примерно 9-10 секунд при подключении к Интернету со скоростью 200 Мбит/с.

Изображение попугая, созданное HART.
Массачусетский технологический институт / Харт

Масштабный прорыв

Когда изображения ИИ впервые начали набирать обороты, за всем этим стояла техника диффузии, лежащая в основе таких продуктов, как генератор изображений Dall-E от OpenAI , Imagen от Google и Stable Diffusion . Этот метод позволяет создавать изображения с чрезвычайно высоким уровнем детализации. Однако это многоэтапный подход к созданию изображений ИИ, и, как следствие, он медленный и требует больших вычислительных затрат.

Второй подход, который в последнее время приобрел популярность, — это авторегрессионные модели, которые по сути работают так же, как чат-боты, и генерируют изображения с использованием техники предсказания пикселей. Это более быстрый, но и более подверженный ошибкам метод создания изображений с использованием ИИ.

Демонстрация HART на устройстве: эффективная генерация визуальных данных с помощью гибридного авторегрессионного трансформатора

Команда Массачусетского технологического института объединила оба метода в единый пакет под названием HART. Он опирается на модель авторегрессии для прогнозирования ресурсов сжатого изображения как дискретного токена, в то время как модель небольшой диффузии обрабатывает все остальное, чтобы компенсировать потерю качества. Общий подход сокращает количество необходимых шагов с более чем двух десятков до восьми шагов.

Эксперты, стоящие за HART, утверждают, что он может «генерировать изображения, которые соответствуют или превосходят качество современных диффузионных моделей, но делают это примерно в девять раз быстрее». HART сочетает в себе авторегрессионную модель с диапазоном параметров в 700 миллионов и модель небольшой диффузии, которая может обрабатывать 37 миллионов параметров.

Эволюция обучения изображений для HART.
Массачусетский технологический институт / Харт

Решение кризиса расчета себестоимости

Интересно, что этот гибридный инструмент смог создавать изображения, качество которых соответствовало моделям высшего класса с емкостью в 2 миллиарда параметров. Самое главное, что HART смог достичь этого рубежа, увеличив скорость генерации изображений в девять раз и при этом требуя на 31% меньше вычислительных ресурсов.

По мнению команды, малозатратный подход позволяет HART работать локально на телефонах и ноутбуках, что является огромным преимуществом. На данный момент наиболее популярные продукты массового рынка, такие как ChatGPT и Gemini, требуют подключения к Интернету для создания изображений, поскольку вычисления происходят на облачных серверах.

В тестовом видео команда продемонстрировала, что он работает на ноутбуке MSI с процессором серии Intel Core и видеокартой Nvidia GeForce RTX. Эту комбинацию вы можете найти на большинстве игровых ноутбуков, не тратя при этом целое состояние.

Сравнительный анализ изображений ИИ.
Массачусетский технологический институт / Харт

HART способен создавать изображения с соотношением сторон 1:1 и приличным разрешением 1024 x 1024 пикселей. Уровень детализации этих изображений впечатляет, равно как и стилистическое разнообразие и точность декораций. В ходе испытаний команда отметила, что гибридный инструмент искусственного интеллекта работает в три-шесть раз быстрее и обеспечивает более чем в семь раз более высокую пропускную способность.

Будущий потенциал впечатляет, особенно при интеграции возможностей изображения HART с языковыми моделями. «В будущем можно будет взаимодействовать с единой генеративной моделью на языке видения, возможно, попросив ее показать промежуточные шаги, необходимые для сборки предмета мебели», — говорит команда Массачусетского технологического института.

Они уже изучают эту идею и даже планируют протестировать подход HART при генерации аудио и видео . Вы можете попробовать это на веб-панели MIT.

Некоторые острые углы

Прежде чем мы углубимся в дебаты о качестве, имейте в виду, что HART — это во многом исследовательский проект, который все еще находится на ранней стадии. С технической стороны команда отметила несколько проблем, таких как накладные расходы во время процесса вывода и обучения.

Сбои HART.
ХАРТ / Надим Сарвар

Проблемы можно решить или игнорировать, потому что они незначительны в более широком плане вещей. Более того, учитывая явные преимущества HART с точки зрения вычислительной эффективности, скорости и задержки, они могут просто сохраняться, не приводя к каким-либо серьезным проблемам с производительностью.

За короткое время оперативного тестирования HART я был поражен скоростью генерации изображений. Я едва столкнулся со сценарием, когда бесплатному веб-инструменту требовалось более двух секунд для создания изображения. Даже с подсказками, состоящими из трех абзацев (приблизительно более 200 слов), HART смог создать изображения, которые точно соответствуют описанию.

Образец изображений AI, созданный с помощью HART.
ХАРТ / Надим Сарвар

Помимо описательной точности, на изображениях было много деталей. Однако HART страдает типичными недостатками инструмента генерации изображений искусственного интеллекта. У него проблемы с цифрами, базовыми изображениями, такими как поедание продуктов питания, постоянством персонажей и неудачей в захвате перспективы.

Фотореализм в человеческом контексте — это одна из областей, в которой я заметил явные неудачи. В некоторых случаях он просто неправильно понимал концепцию основных объектов, например, путал кольцо с ожерельем. Но в целом этих ошибок было мало, и они были в принципе ожидаемыми. Здоровая группа инструментов искусственного интеллекта до сих пор не может сделать это правильно, несмотря на то, что они существуют уже некоторое время.

В целом меня особенно воодушевляет огромный потенциал HART. Было бы интересно посмотреть, создадут ли MIT и Nvidia продукт на его основе или просто примут гибридный подход к созданию изображений ИИ в существующем продукте. В любом случае, это взгляд в очень многообещающее будущее.