5 вещей, с которыми до сих пор борются генераторы изображений ИИ

Генераторы изображений с искусственным интеллектом, такие как Dall-E , Stable Diffusion , Midjourney и Bing Image Creator , дают потрясающие результаты, но иногда они могут быть невероятно разочаровывающими. С помощью простых подсказок, содержащих всего несколько слов, ИИ может выводить впечатляющие изображения, которые выглядят как профессиональные фотографии и убедительные произведения искусства в различных стилях. Тем не менее, одна и та же подсказка иногда будет создавать какое-то ужасное существо или уморительно ошибочный рендеринг.

Отрицательные подсказки могут помочь снизить вероятность этих ошибок, но сложность не всегда может вас спасти. Даже специалисты по искусственному интеллекту борются с уродливыми существами и потусторонними сценами, требуя долгих часов уточнения подсказок или подкрашивания изображений с помощью традиционного фоторедактора. На данный момент, если вы внимательно посмотрите на нужные области изображения, есть большая вероятность, что вы сможете определить, было ли оно сделано машиной.

Салат для рук и шарики из пальцев

Разработчики искусственного интеллекта добились прогресса в борьбе за то, чтобы научить инструменты искусственного интеллекта тому, как должны выглядеть человеческие руки, но есть много возможностей для улучшения. Если пальцы не видны, легко пропустить ошибки, но это постоянная проблема.

Dall-E был одним из первых лидеров ИИ, но руки — это не его дело.
Dall-E был одним из первых лидеров ИИ, но руки — это не его дело. Dall-E по инициативе Алана Трули

Один из первых и лучших генераторов изображений ИИ, доступных для общественности, Dall-E от OpenAI , создал эти изображения людей, держащихся за руки. На первый взгляд может показаться, что все в порядке. При ближайшем рассмотрении становятся очевидными некоторые проблемы. Остерегайтесь лишних пальцев, странных ногтей и сросшихся пальцев.

Сложные захваты и переплетенные пальцы еще более сложны. Не удивляйтесь, если ваши изображения ИИ вернутся с классическими сбоями, называемыми «салат из рук» или «мячики пальцев».

Переплетенные руки Dall-E тревожат.
Переплетенные руки Dall-E тревожат. Dall-E по инициативе Алана Трули

Проблемный текст и написание

Вы можете ожидать, что текст будет легко сгенерирован компьютером. Вы ежедневно видите на экранах слова, когда берете телефон в руки или открываете браузер. Ранние компьютеры, в отличие от современных игровых ПК , не могли отображать никакую графику. Все было текстом или цифрами.

Леонардо ИИ знает стили, но печатный текст сложен.
ИИ Леонардо знает стили, но печатать текст сложно. ИИ Леонардо по инициативе Алана Трули

Тем не менее, отображение реальных букв и символов в виде напечатанных или написанных слов на удивление сложно для генератора изображений ИИ . Может показаться, что решить эту проблему легко, но это не так. Приложение не может просто накладывать обычный текст. Чтобы быть убедительным, стиль текста, затенение, угол и перспектива должны соответствовать остальной части сцены.

В примере относительно новый генератор изображений с искусственным интеллектом, Леонардо ИИ, приложил доблестные усилия с старинным рекламным щитом для закусочной Джека Кролика Слима. После нескольких попыток ИИ удалось произнести «Кролик Джек», что довольно близко к запросу. Винтажный стиль фотографии был точным на каждом изображении, но буквы и слова были в основном испорчены.

Леонардо ИИ был близок к правильному отображению текста в одном из этих рендеров.
ИИ Леонардо был близок к правильному отображению текста на рендере слева. Рендеринг Леонардо ИИ по инициативе Алана Трули

В глазах его нет

Bing Image Creator борется с глазами.
Bing Image Creator по инициативе Алана Трули

Часто говорят, что глаза – зеркало души. Мы так сильно полагаемся на зрительный контакт, что он может быть самой важной деталью в создании реалистичного портрета. Но многие инструменты ИИ с трудом отображают человеческие глаза.

Bing Image Creator отлично поработал со студийным фоном и создал семейную фотографию из нескольких поколений. Однако почти у каждого человека есть причудливые глаза, которые выглядят так, будто их вставили инопланетяне, или, возможно, эти улыбающиеся люди находятся в процессе превращения в неземных существ.

Два близких примера проблем с глазами Bing Image Creator.
Два более близких примера беспокоящих глаз проблем Bing Image Creator. Bing Image Creator по инициативе Алана Трули

Проблемные инструменты

Люди отлично справляются с инструментами, а не только с цифровым разнообразием, таким как ИИ. Мы быстро осваиваем любой физический инструмент, находящийся в пределах нашей досягаемости. ИИ, с другой стороны, изо всех сил пытается понять, что они собой представляют и как их используют.

Midjourney понимает руки, но озадачен гаечными ключами.
Midjourney понимает руки, но озадачен гаечными ключами. Это лампочка внизу слева? Середина пути, предложенная Аланом Трули

Midjourney — это генератор изображений с искусственным интеллектом, который добился фантастического прогресса в решении проблем с человеческими лицами и руками. Однако, когда предлагается показать механика, затягивающего болт гаечным ключом, инструмент полностью отсутствует. В одном случае к перчаткам добавляются ногти, а в другом каким-то образом появляется лампочка.

Ножницы слишком сложны для Bing Image Creator в этом крупном плане рендеринга стрижки волос. Они открыты только на одном изображении и никогда не кажутся разрезаемыми.

Bing Image Creator не может разобраться с ножницами.
Bing Image Creator не может понять, как работают ножницы. Bing Image Creator по инициативе Алана Трули

Кошмарные зубы

Стабильная диффузионная визуализация улыбки иногда имеет слишком много зубов.
Стабильная диффузия с помощью искусственного интеллекта Леонардо, предложенная Аланом Трули

Когда люди улыбаются и смеются, это обычно улучшает картину, делая ее приятной и веселой. Когда ИИ получает простую подсказку, например, двух улыбающихся и смеющихся студентов, он может превратить это в топливо для кошмаров с несколькими рядами зубов и другими странными искажениями.

Leonardo AI позволяет выбирать между несколькими моделями, а некоторые хорошо справляются с зубами. Популярная модель Stable Diffusion 2.1 нуждалась в некоторой помощи, чтобы исправить зубы. С некоторыми негативными подсказками проблема была решена. Существуют решения этих проблем с изображением ИИ, но для получения хороших результатов все еще требуется работа.

Улыбки Stable Diffusion выигрывают от негативных подсказок.
Стабильная диффузная улыбка выигрывает от негативных подсказок об удалении «странных зубов» и «искаженного рта». Стабильная диффузия с помощью искусственного интеллекта Леонардо, предложенная Аланом Трули

Искусство ИИ быстро улучшается

На заре искусства ИИ результаты были странными и прекрасными, создавая красоту и ужас с одинаковой энергией. Ошибки становятся менее заметными с каждым новым обновлением, и многие проблемы можно преодолеть с некоторой доработкой.

Имея так много доступных инструментов ИИ , легко попробовать другую систему. Многие генераторы изображений ИИ допускают отрицательные подсказки или другие параметры для настройки алгоритма и получения лучших результатов.

Возможно, вам придется выполнить несколько попыток, чтобы получить пригодную для использования картинку, особенно если в фокусе находятся лица или руки. Если вы хотите включить печатные или письменные слова, будьте готовы потратить время в графическом редакторе, стирая бессмысленные буквы ИИ и вставляя правильный текст.

Хорошая новость заключается в том, что многие генераторы изображений AI бесплатны, а модели подписки относительно недороги. В течение года эти затянувшиеся проблемы могут быть решены, что позволит вам использовать ИИ-рендеринг в качестве готового произведения искусства илизамены фотографии .