5 вещей, с которыми до сих пор борются генераторы изображений ИИ
Генераторы изображений с искусственным интеллектом, такие как Dall-E , Stable Diffusion , Midjourney и Bing Image Creator , дают потрясающие результаты, но иногда они могут быть невероятно разочаровывающими. С помощью простых подсказок, содержащих всего несколько слов, ИИ может выводить впечатляющие изображения, которые выглядят как профессиональные фотографии и убедительные произведения искусства в различных стилях. Тем не менее, одна и та же подсказка иногда будет создавать какое-то ужасное существо или уморительно ошибочный рендеринг.
Отрицательные подсказки могут помочь снизить вероятность этих ошибок, но сложность не всегда может вас спасти. Даже специалисты по искусственному интеллекту борются с уродливыми существами и потусторонними сценами, требуя долгих часов уточнения подсказок или подкрашивания изображений с помощью традиционного фоторедактора. На данный момент, если вы внимательно посмотрите на нужные области изображения, есть большая вероятность, что вы сможете определить, было ли оно сделано машиной.
Салат для рук и шарики из пальцев
Разработчики искусственного интеллекта добились прогресса в борьбе за то, чтобы научить инструменты искусственного интеллекта тому, как должны выглядеть человеческие руки, но есть много возможностей для улучшения. Если пальцы не видны, легко пропустить ошибки, но это постоянная проблема.
Один из первых и лучших генераторов изображений ИИ, доступных для общественности, Dall-E от OpenAI , создал эти изображения людей, держащихся за руки. На первый взгляд может показаться, что все в порядке. При ближайшем рассмотрении становятся очевидными некоторые проблемы. Остерегайтесь лишних пальцев, странных ногтей и сросшихся пальцев.
Сложные захваты и переплетенные пальцы еще более сложны. Не удивляйтесь, если ваши изображения ИИ вернутся с классическими сбоями, называемыми «салат из рук» или «мячики пальцев».
Проблемный текст и написание
Вы можете ожидать, что текст будет легко сгенерирован компьютером. Вы ежедневно видите на экранах слова, когда берете телефон в руки или открываете браузер. Ранние компьютеры, в отличие от современных игровых ПК , не могли отображать никакую графику. Все было текстом или цифрами.
Тем не менее, отображение реальных букв и символов в виде напечатанных или написанных слов на удивление сложно для генератора изображений ИИ . Может показаться, что решить эту проблему легко, но это не так. Приложение не может просто накладывать обычный текст. Чтобы быть убедительным, стиль текста, затенение, угол и перспектива должны соответствовать остальной части сцены.
В примере относительно новый генератор изображений с искусственным интеллектом, Леонардо ИИ, приложил доблестные усилия с старинным рекламным щитом для закусочной Джека Кролика Слима. После нескольких попыток ИИ удалось произнести «Кролик Джек», что довольно близко к запросу. Винтажный стиль фотографии был точным на каждом изображении, но буквы и слова были в основном испорчены.
В глазах его нет
Часто говорят, что глаза – зеркало души. Мы так сильно полагаемся на зрительный контакт, что он может быть самой важной деталью в создании реалистичного портрета. Но многие инструменты ИИ с трудом отображают человеческие глаза.
Bing Image Creator отлично поработал со студийным фоном и создал семейную фотографию из нескольких поколений. Однако почти у каждого человека есть причудливые глаза, которые выглядят так, будто их вставили инопланетяне, или, возможно, эти улыбающиеся люди находятся в процессе превращения в неземных существ.
Проблемные инструменты
Люди отлично справляются с инструментами, а не только с цифровым разнообразием, таким как ИИ. Мы быстро осваиваем любой физический инструмент, находящийся в пределах нашей досягаемости. ИИ, с другой стороны, изо всех сил пытается понять, что они собой представляют и как их используют.
Midjourney — это генератор изображений с искусственным интеллектом, который добился фантастического прогресса в решении проблем с человеческими лицами и руками. Однако, когда предлагается показать механика, затягивающего болт гаечным ключом, инструмент полностью отсутствует. В одном случае к перчаткам добавляются ногти, а в другом каким-то образом появляется лампочка.
Ножницы слишком сложны для Bing Image Creator в этом крупном плане рендеринга стрижки волос. Они открыты только на одном изображении и никогда не кажутся разрезаемыми.
Кошмарные зубы
Когда люди улыбаются и смеются, это обычно улучшает картину, делая ее приятной и веселой. Когда ИИ получает простую подсказку, например, двух улыбающихся и смеющихся студентов, он может превратить это в топливо для кошмаров с несколькими рядами зубов и другими странными искажениями.
Leonardo AI позволяет выбирать между несколькими моделями, а некоторые хорошо справляются с зубами. Популярная модель Stable Diffusion 2.1 нуждалась в некоторой помощи, чтобы исправить зубы. С некоторыми негативными подсказками проблема была решена. Существуют решения этих проблем с изображением ИИ, но для получения хороших результатов все еще требуется работа.
Искусство ИИ быстро улучшается
На заре искусства ИИ результаты были странными и прекрасными, создавая красоту и ужас с одинаковой энергией. Ошибки становятся менее заметными с каждым новым обновлением, и многие проблемы можно преодолеть с некоторой доработкой.
Имея так много доступных инструментов ИИ , легко попробовать другую систему. Многие генераторы изображений ИИ допускают отрицательные подсказки или другие параметры для настройки алгоритма и получения лучших результатов.
Возможно, вам придется выполнить несколько попыток, чтобы получить пригодную для использования картинку, особенно если в фокусе находятся лица или руки. Если вы хотите включить печатные или письменные слова, будьте готовы потратить время в графическом редакторе, стирая бессмысленные буквы ИИ и вставляя правильный текст.
Хорошая новость заключается в том, что многие генераторы изображений AI бесплатны, а модели подписки относительно недороги. В течение года эти затянувшиеся проблемы могут быть решены, что позволит вам использовать ИИ-рендеринг в качестве готового произведения искусства илизамены фотографии .