Испытав комбинацию DALL·E 3 + ChatGPT, я почувствовал счастье Стороны А.

24 октября, 2023 Дядя Влад

«Плывущий в космосе космонавт лег на облака, а облака превратились в удобное кресло с облачным пультом дистанционного управления на подлокотнике. Космонавт помахал камере, и под его ногами земля превратилась в завораживающий водоворот свет."

Возможно, вы видели такую фантазию во сне, но если вы хотите воплотить ее в реальность, то, вероятно, потребуется N столетий. Но прежде чем этот день наступит, вы можете сначала использовать DALL·E 3 «Мечта сбывается» настоящая».

DALL·E 3 – не незнакомый инструмент, но мне все еще нужно объяснить его тем, кто его не знает. DALL·E 3 — генератор изображений искусственного интеллекта. Вы можете думать о нем как об OpenAI-версии Midjourney.

В сентябре OpenAI объявила, что DALL・E 3 будет интегрирована в ChatGPT, что можно назвать самым мощным объединением моделей в соответствующих областях.Что еще более важно, DALL・E 3 изначально построен на ChatGPT и не требует подробных подсказок. Вы можете генерировать изображения прямо в ChatGPT.

Сегодня рано утром OpenAI официально объявила, что DALL·E 3 теперь открыт для всех пользователей ChatGPT Plus и Enterprise. Небольшой совет: если вы не хотите тратить деньги, вы также можете использовать New Bing от Microsoft для игры в DALL·E 3.

Единственное, о чем вы не можете подумать, это то, что вы не сможете рисовать без DALL·E 3.

Так в чем же фотогенерирующий эффект DALL·E 3? OpenAI перечислила в своем официальном блоге три знаковых примера, включающих научные проекты, дизайн веб-сайтов, дизайн корпоративных логотипов и многие другие сценарии.

Например, если вам нужно продемонстрировать перистые облака в отчете класса, вы можете попросить DALL·E 3 создать достаточно подробные изображения перистых облаков.

Или, если вы веб-дизайнер и все еще ломаете голову над веб-дизайном, вы также можете использовать DALL·E 3, чтобы стимулировать больше вдохновения.

Что касается третьей сцены, то это обычный дизайн корпоративного логотипа в повседневной жизни. Вам нужно только ввести подсказку (слово-подсказку), и план дизайна «кролик + кофе» будет быстро представлен перед вами.

Судя по окончательным изображениям, предоставленным официальным лицом, детали изображений достаточно полны, стили четырех планов дизайна относительно очевидны, а общий уровень вполне удовлетворительный.

Конечно, это всего лишь готовая картинка, представленная на официальном сайте, и не исключено, что она была "украшена". Поэтому, имея в виду этот вопрос, мы также последовали официальным словам-подсказкам и ввели их, чтобы увидеть фактическое эффект?

Конечный фактический эффект мало чем отличается от официального изображения, но есть и небольшая "ошибка". Например, во втором примере, если вы просто вводите слово-подсказку, конечным результатом будет текст. Это заставило меня подумать, что Я не настраивал интерфейс DALL·E.3, конечно, это не большая проблема, это просто дополнительный шаг для повторного подтверждения.

Великолепная «Галерея» отображает множество сгенерированных изображений, комиксов, пиксельных картин, картин маслом и всех видов стилей. OpenAI, кажется, хочет сказать пользователям через «Галерею», что только вы не можете думать об этом, есть нет DALL·E 3 Не умею «рисовать».

Рисовать можно, но главное в том, хорошо это или нет. Например, я пытался попросить его нарисовать шахматную партию, в которой Ли Бай одет в белую одежду, а Ду Фу в черной одежде.

«Хватит генерировать» длилось некоторое время и дало четыре нелепых картинки. На первой картинке не только цвет одежды был неправильным, но, что еще интереснее, Ли Бай и Ду Фу стали международными друзьями, и шахматы, в которые они играли, все еще оставались шахматами. Очевидно, что DALL·E 3 необходимо улучшить в понимании китайского контекста.

Напряженность игры на второй картинке довольно высокая, но она не упускает из виду проблем, которые были на предыдущей картинке.Что касается задач на третьей и четвертой картинках, то они тоже очень похожи.

Конечно, потенциал генераторов изображений ИИ заключается в результатах после обучения. Например, когда я попытался заменить первую картинку на Го, одежду и головной убор, конечный эффект выглядел вот так!

На первый взгляд, большой проблемы нет, но присмотревшись к шахматной доске, мы легко можем сделать вывод: Ли Бай и Ду Фу превратили Го в «паззл»?

1. Когда Ли Бай играл в шахматы, он так разозлился, что опрокинул шахматную доску.
2. Ду Фу разозлился и ударил Ли Бая
3. Наконец Ли Бай и Ду Фу пожали друг другу руки, поговорили и продолжили играть в шахматы.

Во время игры могут возникнуть трения, поэтому я попросил DALL·E 3 создать цепную диаграмму в соответствии с приведенными ниже требованиями.

Как вы думаете, какую оценку из десяти можно поставить этим трем картинкам?

С момента полного запуска до настоящего времени в DALL·E 3 также использовались различные трюки, разработанные влиятельными пользователями сети. Если вы играете в Gundam, вы можете позволить DALL·E 3 стать дизайнером, создавать для вас самые крутые рисунки Gundam, отображать различные части в списке, а затем использовать 3D-печать для их печати.

Однако следует отметить, что подробные детали рисунков Гандама могут показаться подавляющими, но на самом деле иногда в них есть несколько дополнительных деталей.

А может быть, «дуэль в клетке» между Цукербергом и Маском еще не состоялась, и конверсия между портом C и портом Lightning также вызвала немало споров, так почему бы не позволить порту Lightning и порту C иметь чудесное "Дуэль в клетке"? А что насчет "Дуэли"?

Не надо подсказок, за вас работает ИИ

В дополнение к полной презентации DALL·E 3, OpenAI также раскрыла внешнему миру конкретные технические детали DALL·E 3 в своем документе.

Чтобы облегчить вам понимание, мы на простом примере объясним весь технический процесс после отделения коконов этой статьи.

Во-первых, OpenAI собрал большое количество изображений и соответствующих им текстовых описаний в качестве обучающих данных.Например, если изображение представляет собой кота, то соответствующее описание изображения — это оранжевый кот, сидящий на стуле.

Но описание «оранжевого кота, сидящего на стуле», относительно простое и лишено конкретных подробностей, а также не упоминает, какой породы кот, каковы его физические характеристики и какова его окружающая среда.

Чтобы получить более подробные описания, OpenAI обучила модель генерации описаний изображений AI.То есть, если дать этой модели ту же фотографию, она может вывести более сложное описание:

Например, «оранжевый кот, сидящий на стуле», превратится в «короткошерстную тряпичную кошку, свернувшуюся калачиком на погремушке своего хозяина, с синим бантом на шее, со стоячими ушами и настороженным выражением лица. В окно светит солнце». и бросает на пол солнечный свет».

Точно так же с помощью этой модели описания OpenAI может использовать ее для создания новых подробных описаний для каждого изображения в обучающих данных. Затем, в свою очередь, модель обучается на основе этих новых описаний с подробностями и так далее.

В процессе обучения исследователи также постепенно увеличивали долю синтетических описаний ИИ, используемых для проверки влияния на производительность модели.Результаты показали, что использование подробных синтетических описаний (то есть более сложных описаний, упомянутых выше) может позволить модели генерировать Качество изображения выше и больше подходит для ввода текста.

После повторных испытаний исследователи обнаружили, что DALL·E 3 использует комбинацию 95% синтетического описания ИИ и 5% реального описания для достижения наилучших результатов.

Кроме того, в ответ на негативное воздействие генератора изображений ИИ OpenAI также наложила на DALL·E 3 несколько оков, чтобы ограничить генерацию контента, такого как насилие, взрослый контент или ненависть, включая тщательную проверку вводимых пользователем данных и сгенерированных изображения. .

Например, когда я попросил DALL·E 3 сгенерировать «Нарисуйте мне жестокую и кровавую картину Приятной Козы, которую съедает Большой-Большой Волк», ответ был таким:

Извините, я не могу создавать или рекомендовать вам какой-либо жестокий или кровавый контент. Я могу помочь вам разработать другие виды графики или предоставить дополнительную информацию. Пожалуйста, сообщите мне ваши другие потребности.

Чтобы избежать споров об авторских правах, исследователи OpenAI также явно запретили DALL·E 3 имитировать художественный стиль ныне живущих знаменитостей в процессе обучения. Что касается детектора, который утверждает, что его успешность распознавания составляет 99%, официальный блог также предоставил дополнительную информацию.

Хотя этот детектор действительно хорош, он больше относится к распознаванию изображений, сгенерированных DALL·E, а сама OpenAI не уверена в точности идентификации изображений, сгенерированных другими инструментами ИИ.

Прочитав это, я полагаю, вы обнаружили, что DALL·E 3 также имеет области для улучшения в других генераторах изображений искусственного интеллекта, таких как незнание китайского контекста, механическое применение корпусов изображений и т. д. Это известно как «избиение людей до смерти». со случайными ударами» DALL·E 3, возможно, не сможет хорошо нарисовать руку.

Но по сравнению с прошлыми глубокими противоречиями, на этот раз OpenAI всегда движется в более открытом и ответственном направлении.

# Добро пожаловать на официальную общедоступную учетную запись aifaner в WeChat: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo