DALL-E 3 может вывести создание изображений с помощью ИИ на новый уровень
OpenAI, возможно, готовит следующую версию своего генератора текста в изображение DALL-E AI с серией альфа-тестов, которые теперь стали достоянием общественности, согласно Decoder .
Анонимный лидер в Discord поделился подробностями о своем опыте, имея доступ к будущей модели изображения OpenAI, именуемой DALL-E 3. Впервые он появился в мае, сообщив каналу Discord, основанному на интересах, что он был частью альфа-теста для OpenAI пробует новую модель изображения ИИ. Он поделился изображениями, которые он создал в то время.
В майской тестовой альфа-версии была возможность генерировать изображения с несколькими соотношениями сторон внутри модели изображения. YouTuber MattVidPro AI затем продемонстрировал несколько изображений, созданных с соотношением сторон 16:9. Эта версия также продемонстрировала мастерство модели в создании высококачественного текста, что по-прежнему является проблемой для конкурирующих моделей, даже для лучших генераторов, таких как Stable Diffusion и Midjourney .
В некоторых примерах демонстрировались изображения, такие как текст, слитый с кирпичной стеной, неоновая вывеска слов, рекламный щит в городе, украшение для торта и имя, выгравированное на горе. Модель утверждает, что DALL-E умеет генерировать людей. На одном из таких изображений женщина ест спагетти на вечеринке с точки зрения рыбьего глаза.
Ликер вернулся на канал Discord в середине июля с более подробной информацией и новыми изображениями. Он утверждал, что является частью «закрытой альфа-версии» тестовой версии, в которой участвовало около 400 испытуемых. Он добавил, что его пригласили на пробную версию по электронной почте, а также он участвовал в тестировании оригинальных DALL-E и DALL-E 2 . Именно это привело к выводу, что альфа-тест может быть для DALL-E 3, хотя это не было подтверждено.
Модель была значительно обновлена в период с мая по июль. Лидер продемонстрировал это, поделившись изображениями, созданными на основе той же подсказки, показывая, насколько мощным DALL-E 3 стал со временем. В подсказке изображен розовый шут, дающий пять панде во время соревнований по велоспорту. Велосипеды сделаны из сыра, а земля очень грязная. Они едут в туманном лесу. Панда злится.
Майская альфа-версия создает общую сцену, которая затрагивает большинство моментов подсказки. В соединении рук есть небольшое искажение, а колеса велосипедов желтые, а не сырные. Тем не менее, июльская альфа-версия гораздо более детализирована, с розовым шутом и пандой, явно дающими пять, и велосипедными колесами, сделанными из сыра в нескольких поколениях.
Между тем, в Midjourney шут отсутствует на сцене, панды едут на мотоциклах вместо велосипедов. Там дороги, а не грязь. Панды счастливы, а не злы.
Существует множество примеров альфа-изображений DALL-E от 3 июля, которые демонстрируют потенциал модели. Тем не менее, поскольку альфа-тест не подвергается цензуре, источник утечки отметил, что он также может создавать сцены «насилия и наготы или материалов, защищенных авторским правом, таких как логотипы компаний».
Некоторые примеры включают окровавленную аниме-девушку, персонажа «Игры престолов» , обложку Grand Theft Auto V , зомби-Иисуса, поедающего сэндвич Subway, что также предполагает легкую кровь, и Шрека, выкопанного во время археологических раскопок, среди прочего.
MattVidPro AI отметил, что модель изображения генерирует изображения, как будто они должны быть в определенном стиле.
DALL-E 2 был запущен в апреле 2022 года, но строго регламентировался списком ожидания из-за его популярности и опасений по поводу этики и безопасности. Генератор изображений AI стал общедоступным в сентябре 2022 года.