Генерация изображений с помощью ИИ сделала огромный шаг вперед

Мы уже некоторое время живем с изображениями, сгенерированными искусственным интеллектом, но на этой неделе некоторые крупные игроки сделали большие шаги вперед. В частности, я говорю о существенных обновлениях Midjourney , новой модели Google и Grok .

Каждая компания показывает, что технологии развиваются разными темпами и в разных направлениях. Это по-прежнему открытое игровое поле, и каждая компания демонстрирует, насколько далеко зашел прогресс.

Midjourney появился в сети

Профессор Дамблдор у бассейна в фильме Уэса Андерсона «Гарри Поттер».
Изображение AI, созданное в Midjourney. Канал / Мидпутешествие

Начнем с Midjourney, которая вечером в четверг незаметно представила новый веб-редактор, объединяющий ряд полезных инструментов для работы с изображениями в едином пользовательском интерфейсе.

Раньше такие функции, как изменение кадра, перерисовка (добавление ресурсов, созданных искусственным интеллектом, или изменение существующего изображения), панорамирование, расширение холста (расширение границ изображения и создание контента для заполнения) и масштабирование, требовали использования собственного специального инструмента и были расположены в нескольких меню, что требовало от создателей постоянного переключения туда и обратно. Этот новый пользовательский интерфейс предлагает более последовательный и оптимизированный процесс редактирования, что заметно отличается от запуска программы в Discord.

По словам генерального директора Midjourney Дэвида Хольца в Discord, новый веб-редактор предназначен для того, чтобы упростить и упростить редактирование изображений, созданных искусственным интеллектом. «Мы думаем, что это сделает редактирование изображений MJ более простым, чем раньше, и это огромный шаг вперед», — написал он.

Хотя Midjourney продолжает переходить от Discord к веб-приложению, компания также объявила, что будет зеркально отображать сообщения из популярных каналов, таких как «ежедневная тема», «подсказка» и «общий-1», в своей сети. комнаты и каналы Discord, чтобы люди могли следить за этими тредами с любой платформы, которую они предпочитают. Компания также представила новый инструмент выделения, который работает как цифровая кисть и заменил инструменты квадратного выделения и лассо.

Новый редактор доступен всем пользователям Midjourney, которые уже создали на платформе более 10 изображений. Первоначальная реакция сообщества создателей была в основном положительной.

Редактор появился через две недели после выпуска Midjourney 6.1 , в котором улучшено качество и связность изображения (например, правильное количество пальцев), а также значительно улучшено время обработки и понимание точности текста в подсказках к изображениям.

Грок-2 выпускает на волю монстра

Обновление Midjourney также выходит всего через два дня после выпуска Grok-2 стартапом xAI Илона Маска, что является следующим большим событием, произошедшим на этой неделе.

Возможности создания изображений Grok основаны на модели Flux.1 от Black Forrest Lab, популярность которой быстро растет благодаря впечатляющему качеству изображения и бесплатному использованию.

Самое большое противоречие с «Грок-2» связано не только с его качеством, которое довольно хорошее, но и с его, казалось бы, неопределенными руководящими принципами. В отличие от многих других генераторов изображений ИИ, Grok-2, по-видимому, имеет очень мало рекомендаций в отношении интеллектуальной собственности, насилия и другого откровенного контента. Это не первый случай, когда генератор изображений ИИ сталкивается с такой ошибкой, но в случае с Гроком это кажется намеренным, а Маск назвал его «самым забавным ИИ в мире».

Люди уже проверили его пределы и создали всевозможные ужасные и причудливые изображения, напоминающие о первых днях создания изображений ИИ. Но если верить риторике Маска, отсутствие руководящих указаний у Grok-2 кажется целенаправленным и может в конечном итоге повлиять на то, как эта технология будет развиваться в будущем.

Google становится конкурентоспособным с Imagen 3

Изображение AI, созданное с помощью модели Google Imagen-3. Google

Наконец, Google анонсировала свою новую модель Imagen 3 AI , которая была выпущена для всех пользователей в США в четверг . Google называет это своей «моделью преобразования текста в изображение высочайшего качества», которая теперь способна обеспечивать «лучшую детализацию, более насыщенное освещение и меньше отвлекающих артефактов, чем наши предыдущие модели». Google также сообщает, что Imagen-3 лучше справляется с рендерингом текста и теперь доступен в разных версиях, созданных для поставленной задачи, например, что-то легкое, например быстрый эскиз, или что-то гораздо более детальное и с высоким разрешением.

На данный момент Imagen 3 доступен только через Google AI Test Kitchen как часть ImageFX. В настоящее время это находится в стадии закрытого бета-тестирования, а это значит, что вам придется присоединиться к списку ожидания, если вы еще не являетесь участником.