DALL-E 3 может вывести создание изображений с помощью ИИ на новый уровень

DALL-E 2DALL-E 2 Изображение на OpenAI.
OpenAI

OpenAI, возможно, готовит следующую версию своего генератора текста в изображение DALL-E AI с серией альфа-тестов, которые теперь стали достоянием общественности, согласно Decoder .

Анонимный лидер в Discord поделился подробностями о своем опыте, имея доступ к будущей модели изображения OpenAI, именуемой DALL-E 3. Впервые он появился в мае, сообщив каналу Discord, основанному на интересах, что он был частью альфа-теста для OpenAI пробует новую модель изображения ИИ. Он поделился изображениями, которые он создал в то время.

Мы НИКОГДА не видели такой хорошей генерации изображений! | СНИК-ПИК

В майской тестовой альфа-версии была возможность генерировать изображения с несколькими соотношениями сторон внутри модели изображения. YouTuber MattVidPro AI затем продемонстрировал несколько изображений, созданных с соотношением сторон 16:9. Эта версия также продемонстрировала мастерство модели в создании высококачественного текста, что по-прежнему является проблемой для конкурирующих моделей, даже для лучших генераторов, таких как Stable Diffusion и Midjourney .

В некоторых примерах демонстрировались изображения, такие как текст, слитый с кирпичной стеной, неоновая вывеска слов, рекламный щит в городе, украшение для торта и имя, выгравированное на горе. Модель утверждает, что DALL-E умеет генерировать людей. На одном из таких изображений женщина ест спагетти на вечеринке с точки зрения рыбьего глаза.

Ликер вернулся на канал Discord в середине июля с более подробной информацией и новыми изображениями. Он утверждал, что является частью «закрытой альфа-версии» тестовой версии, в которой участвовало около 400 испытуемых. Он добавил, что его пригласили на пробную версию по электронной почте, а также он участвовал в тестировании оригинальных DALL-E и DALL-E 2 . Именно это привело к выводу, что альфа-тест может быть для DALL-E 3, хотя это не было подтверждено.

Изображение тестовой альфа-версии OpenAI Dall-E 3. Изображение тестовой альфа-версии OpenAI Dall-E 3.

Модель была значительно обновлена ​​в период с мая по июль. Лидер продемонстрировал это, поделившись изображениями, созданными на основе той же подсказки, показывая, насколько мощным DALL-E 3 стал со временем. В подсказке изображен розовый шут, дающий пять панде во время соревнований по велоспорту. Велосипеды сделаны из сыра, а земля очень грязная. Они едут в туманном лесу. Панда злится.

Майская альфа-версия создает общую сцену, которая затрагивает большинство моментов подсказки. В соединении рук есть небольшое искажение, а колеса велосипедов желтые, а не сырные. Тем не менее, июльская альфа-версия гораздо более детализирована, с розовым шутом и пандой, явно дающими пять, и велосипедными колесами, сделанными из сыра в нескольких поколениях.

Между тем, в Midjourney шут отсутствует на сцене, панды едут на мотоциклах вместо велосипедов. Там дороги, а не грязь. Панды счастливы, а не злы.

Существует множество примеров альфа-изображений DALL-E от 3 июля, которые демонстрируют потенциал модели. Тем не менее, поскольку альфа-тест не подвергается цензуре, источник утечки отметил, что он также может создавать сцены «насилия и наготы или материалов, защищенных авторским правом, таких как логотипы компаний».

Некоторые примеры включают окровавленную аниме-девушку, персонажа «Игры престолов» , обложку Grand Theft Auto V , зомби-Иисуса, поедающего сэндвич Subway, что также предполагает легкую кровь, и Шрека, выкопанного во время археологических раскопок, среди прочего.

MattVidPro AI отметил, что модель изображения генерирует изображения, как будто они должны быть в определенном стиле.

DALL-E 2 был запущен в апреле 2022 года, но строго регламентировался списком ожидания из-за его популярности и опасений по поводу этики и безопасности. Генератор изображений AI стал общедоступным в сентябре 2022 года.