Я протестировал будущее генерации изображений с помощью ИИ. Это поразительно быстро.
Одной из основных проблем искусственного интеллекта является общеизвестно высокая потребность в мощности и вычислительных ресурсах, особенно для таких задач, как создание мультимедиа. На мобильных телефонах, когда дело доходит до встроенной работы, только несколько дорогих устройств с мощным процессором могут использовать этот набор функций. Даже при масштабной реализации в облаке это обходится дорого .
Nvidia, возможно, спокойно решила эту проблему в партнерстве с ребятами из Массачусетского технологического института и Университета Цинхуа. Команда создала гибридный инструмент создания изображений ИИ под названием HART (гибридный авторегрессионный преобразователь), который по сути сочетает в себе два наиболее широко используемых метода создания изображений ИИ. Результатом является невероятно быстрый инструмент с значительно меньшими вычислительными требованиями.
Чтобы дать вам представление о том, насколько он быстр, я попросил его создать изображение попугая, играющего на бас-гитаре. Примерно через секунду он вернулся со следующей картинкой. Я едва мог следить за индикатором выполнения. Когда я нажал ту же подсказку перед моделью Google Imagen 3 в Gemini , это заняло примерно 9-10 секунд при подключении к Интернету со скоростью 200 Мбит/с.

Масштабный прорыв
Когда изображения ИИ впервые начали набирать обороты, за всем этим стояла техника диффузии, лежащая в основе таких продуктов, как генератор изображений Dall-E от OpenAI , Imagen от Google и Stable Diffusion . Этот метод позволяет создавать изображения с чрезвычайно высоким уровнем детализации. Однако это многоэтапный подход к созданию изображений ИИ, и, как следствие, он медленный и требует больших вычислительных затрат.
Второй подход, который в последнее время приобрел популярность, — это авторегрессионные модели, которые по сути работают так же, как чат-боты, и генерируют изображения с использованием техники предсказания пикселей. Это более быстрый, но и более подверженный ошибкам метод создания изображений с использованием ИИ.
Команда Массачусетского технологического института объединила оба метода в единый пакет под названием HART. Он опирается на модель авторегрессии для прогнозирования ресурсов сжатого изображения как дискретного токена, в то время как модель небольшой диффузии обрабатывает все остальное, чтобы компенсировать потерю качества. Общий подход сокращает количество необходимых шагов с более чем двух десятков до восьми шагов.
Эксперты, стоящие за HART, утверждают, что он может «генерировать изображения, которые соответствуют или превосходят качество современных диффузионных моделей, но делают это примерно в девять раз быстрее». HART сочетает в себе авторегрессионную модель с диапазоном параметров в 700 миллионов и модель небольшой диффузии, которая может обрабатывать 37 миллионов параметров.

Решение кризиса расчета себестоимости
Интересно, что этот гибридный инструмент смог создавать изображения, качество которых соответствовало моделям высшего класса с емкостью в 2 миллиарда параметров. Самое главное, что HART смог достичь этого рубежа, увеличив скорость генерации изображений в девять раз и при этом требуя на 31% меньше вычислительных ресурсов.
По мнению команды, малозатратный подход позволяет HART работать локально на телефонах и ноутбуках, что является огромным преимуществом. На данный момент наиболее популярные продукты массового рынка, такие как ChatGPT и Gemini, требуют подключения к Интернету для создания изображений, поскольку вычисления происходят на облачных серверах.
В тестовом видео команда продемонстрировала, что он работает на ноутбуке MSI с процессором серии Intel Core и видеокартой Nvidia GeForce RTX. Эту комбинацию вы можете найти на большинстве игровых ноутбуков, не тратя при этом целое состояние.

HART способен создавать изображения с соотношением сторон 1:1 и приличным разрешением 1024 x 1024 пикселей. Уровень детализации этих изображений впечатляет, равно как и стилистическое разнообразие и точность декораций. В ходе испытаний команда отметила, что гибридный инструмент искусственного интеллекта работает в три-шесть раз быстрее и обеспечивает более чем в семь раз более высокую пропускную способность.
Будущий потенциал впечатляет, особенно при интеграции возможностей изображения HART с языковыми моделями. «В будущем можно будет взаимодействовать с единой генеративной моделью на языке видения, возможно, попросив ее показать промежуточные шаги, необходимые для сборки предмета мебели», — говорит команда Массачусетского технологического института.
Они уже изучают эту идею и даже планируют протестировать подход HART при генерации аудио и видео . Вы можете попробовать это на веб-панели MIT.
Некоторые острые углы
Прежде чем мы углубимся в дебаты о качестве, имейте в виду, что HART — это во многом исследовательский проект, который все еще находится на ранней стадии. С технической стороны команда отметила несколько проблем, таких как накладные расходы во время процесса вывода и обучения.

Проблемы можно решить или игнорировать, потому что они незначительны в более широком плане вещей. Более того, учитывая явные преимущества HART с точки зрения вычислительной эффективности, скорости и задержки, они могут просто сохраняться, не приводя к каким-либо серьезным проблемам с производительностью.
За короткое время оперативного тестирования HART я был поражен скоростью генерации изображений. Я едва столкнулся со сценарием, когда бесплатному веб-инструменту требовалось более двух секунд для создания изображения. Даже с подсказками, состоящими из трех абзацев (приблизительно более 200 слов), HART смог создать изображения, которые точно соответствуют описанию.

Помимо описательной точности, на изображениях было много деталей. Однако HART страдает типичными недостатками инструмента генерации изображений искусственного интеллекта. У него проблемы с цифрами, базовыми изображениями, такими как поедание продуктов питания, постоянством персонажей и неудачей в захвате перспективы.
Фотореализм в человеческом контексте — это одна из областей, в которой я заметил явные неудачи. В некоторых случаях он просто неправильно понимал концепцию основных объектов, например, путал кольцо с ожерельем. Но в целом этих ошибок было мало, и они были в принципе ожидаемыми. Здоровая группа инструментов искусственного интеллекта до сих пор не может сделать это правильно, несмотря на то, что они существуют уже некоторое время.
В целом меня особенно воодушевляет огромный потенциал HART. Было бы интересно посмотреть, создадут ли MIT и Nvidia продукт на его основе или просто примут гибридный подход к созданию изображений ИИ в существующем продукте. В любом случае, это взгляд в очень многообещающее будущее.