Этот инструмент рисования с искусственным интеллектом настолько увлекателен, что вам даже не нужно писать подсказки.

21 декабря, 2024 Дядя Влад

Инструментов для картографирования искусственного интеллекта уже существует слишком много, но последняя версия Whisk от Google нашла совершенно новый способ игры, и даже пользователи сети, видевшие его, говорят, что это весело.

Просто введите три изображения, тему, сцену и стиль, и Whisk создаст изображение, в котором будут использованы сильные стороны каждого.

▲ Изображение взято: Google

Например, тема — старик, сцена — виноградные лозы, стиль — ретро-анимация 90-х, напишите слово-подсказку «Персонаж на летающем велосипеде», подождите немного, рождается новая картинка, похожая на стиль Ghibli.

▲ Изображение взято: Google

Старик все тот же старик, в шляпе, костюме и с книгой в руках, но он ездит на машине быстрыми словами, а сцена и стиль также изменились на те, что на эталонном изображении.

В этом преимущество Whisk — он позволяет нам легко играть с различными стилями, писать меньше слов и не использовать подсказки. Маме больше не придется беспокоиться о том, что я не могу писать подсказки.

Не пишите сложные подсказки, просто поднимите картинки.

Несмотря на то, что для этого требуется всего несколько картинок, способы игры в Whisk просты, но безграничны.

Загрузите три картинки – тематическую картинку, Картошка фри из Макдональдса; картину-сцену, картину Моне "Кувшинки"; стильную картинку, игру в пиксельном стиле "Долина Стардью".

Без написания слов-подсказок он генерируется напрямую. Результат, который дает Whisk, — одна картинка лучше, чем три.

Помимо загрузки ваших собственных изображений, мы также можем бросить кубик и позволить Whisk случайным образом генерировать темы, сцены и стили.

На самом деле, предустановленных стилей, предоставляемых Whisk, вполне достаточно, включая значки, наклейки, вышивку, глину, комиксы, мозаику и т. д., с отличительными особенностями и немедленными эффектами.

Пока у нас есть мозги и воображение, без слов, просто посредством расположения и сочетания разных картинок, мы можем продолжать играть в клоуз-игры – тема+сцена+стиль, и не все пробелы надо заполнять.

▲ 1. Тематическая картина, копченая курица 2. Сюжетная картина, картина Ван Гога «Звездная ночь» 3. Стильная картина, японская гравюра на дереве;

▲ 1. Тематическая картина «Девушка с жемчужной сережкой» 2. Сюжетная картинка, кадр из фильма «Унесённые призраками» 3. Стилевая картина, абстрактная живопись Мондриана;

▲ 1. Тематическая картинка, набор смайлов WeChat «Death Smiling Face» 2. Картинка сцены, кадры из фильма «Интерстеллар» 3. Картинка стиля, скриншоты комиксов Снупи;

▲ 1. Тематическое изображение, аватар для серфинга по умолчанию — розовый динозавр Момо. 2. Стильное изображение: кукла Jellycat;

Кроме того, для каждого поколения Whisk можно выбрать только одно эталонное изображение для сцены и стиля, но можно выбрать несколько тем. что это значит? В одном кадре может быть несколько персонажей!

Например, пусть Маск, Ультрачеловек и Цукерберг станут эмалевыми значками.

Костюмы, украшения и выражения лиц трех человек были восстановлены очень хорошо. Микрофон и ожерелье Цукерберга не пропали, но лица не смогли сохранить последовательность, и все они стали публичными лицами.

Хотя Whisk уменьшает необходимость писать слова-подсказки, Whisk также рекомендует вам писать их, если это необходимо.

Добавьте в диалоговое окно предложение «Персонажи держат табличку с надписью AGI», и злодеи со значками легко последуют подсказке.

Что делать, если нам нужна определенная сцена или определенный стиль, но в данный момент мы не можем найти эталонное изображение, а пресеты Whisk его не предоставляют?

Решение очень простое. Если у вас нет изображения, просто напишите слово-подсказку и позвольте Whisk создать его на месте.

Точно так же, как мне нужна была основа в пиксельном стиле, на которой персонаж мог бы стоять в качестве сцены, я попросил Whisk сгенерировать ее для меня.

Затем используйте пакет смайликов кота в качестве изображения темы и пиксельного цыпленка в качестве изображения стиля, чтобы получить пиксельного кота с основой.

Короче говоря, Венчик очень свободный, как пластилин, придавать ему форму можно как угодно.

Он может как генерировать, так и понимать изображения, упаковывая сложные рабочие процессы в интересные «взбиватели яиц».

На самом деле Whisk — это способ для мультимодальных моделей Google размять мускулы.

Чтобы помочь нам писать меньше подсказок, Whisk объединяет возможности визуального понимания и создания изображений.

Модель Gemini распознает изображения и автоматически генерирует подробные описания. Эти описания затем вводятся в модель генерации изображений Google Imagen 3, которая генерирует изображения.

Whisk такой. Пользователям нужно только загружать и создавать изображения, но здесь нужно учитывать множество факторов.

На каждом изображении в Whisk, как загруженном, так и созданном, написано длинное слово-подсказка, и оно не скрыто. Мы можем щелкнуть изображение, чтобы увидеть его, а также можем изменить его.

Если в качестве сюжетной картинки взять человека, Виск подробно опишет его внешний вид, и картинка сцены будет аналогичной.

▲ Описание Ультрачеловека Виском: «Человек со светлой кожей, с короткими темно-каштановыми вьющимися волосами, выступающими от груди вверх. У него светлые глаза. Он носит светло-бежевый вязаный свитер с круглым вырезом. Фон: это пестрая серая бетонная стена. . Выражение лица мужчины серьезное и нейтральное, а свет слегка тусклый. На правой стороне его лица есть небольшая тень».

Стиль изображений немного другой. Если в качестве эталона стиля использовать скриншот анимации, Whisk не скажет, что на картинке три человека, а опишет цвет, свет и линии картины…

▲ Описание стиля Снупи, сделанное Уиском: «Это изображение выполнено в мультяшном стиле, с грубыми контурами и плоской штриховкой. Цветовая палитра ограничена, в основном используются основные цвета и мягкие вторичные цвета. Освещение равномерное, без сильных теней и светлых участков. , что придает ему простую, почти детскую текстуру. Линии четкие и последовательные, со слегка неровной текстурой, создающей эффект рисованной работы».

Таким образом, Whisk не копирует картину в точности, а извлекает характеристики и суть картины и естественным образом интегрирует тему, сцену и стиль, каждый из которых выполняет свои обязанности, не мешая друг другу.

В то же время Whisk тоже перекрывается — он извлекает из изображения лишь небольшое количество ключевых признаков, и результаты могут отличаться от ожидаемых. Это также объясняет, почему Whisk не может точно восстановить лица.

Поэтому, даже если вы выберете менее абстрактный стиль ретро-фильма, лица трех боссов не будут рядом друг с другом, но остальные детали будут точными.

То же самое касается объектов. Cybertruck Tesla становится очень обычным после извлечения и регенерации функций.

А вот если это супер ИП с богатыми материалами типа картошки фри в Макдональдсе, то эффект неплох и его можно использовать как рекламный образ. Я попробовал некоторых персонажей Диснея, и Виск воспроизвел их в точности такими, какие они есть, но картинки выкладывать не буду.

Кроме того, у Whisk все еще есть проблема — он не может делать очень подробные отсылки к стилю и не может имитировать определенный стиль живописи.

Когда я попросил Whisk создать минифигурку Моны Лизы из Lego, в результате у меня были черноглазые глаза. Однако, если бы я добавил дополнительную подсказку: «Сделайте персонажа более похожим на персонажа Lego», Whisk мог бы имитировать его от 70% до 80. % лучше.

Еще сложнее подражать стилю определенного карикатуриста. Загрузите в Виск скриншот мультфильма, и в итоге вы получите самую обычную картинку в мультяшном стиле. Даже если вы используете подсказки, чтобы подчеркнуть работу, характер, характер. и карикатурист, это ни на что не повлияет.

На самом деле, Whisk достаточно интересен. Он больше подходит для творческих исследований, не требующих точности, обычно называемых полной работой.

Whisk можно перевести как «перемешивание» или «взбивание яиц». Название Google имеет сильный визуальный смысл. Разве это не просто смешивание и сопоставление ингредиентов?

Неточность Whisk также отличает его от традиционных редакторов изображений и представляет собой скорее творческий инструмент. Если у вас есть идеи, используйте их для достижения грубых визуальных эффектов.

▲ Генерация венчика, 1. Тематическая картинка, скриншот «Наруто» 2. Стильная картинка, плюшевая игрушка;

Раньше, чтобы добиться стилизованного эффекта Whisk и выполнить весь процесс создания изображения, нам могло потребоваться построить рабочий процесс в ComfyUI.

Но теперь с Whisk кажется, что вы играете в карточную игру или открываете слепой ящик, и пока вы можете войти в систему (только в США), в настоящее время это бесплатно.

Руководство по опыту
https://labs.google/fx/zh/tools/whisk

Возможности ведущих моделей Google, безусловно, являются предпосылкой и основой, но разработка продуктов, которые нужны каждому, по-прежнему требует творчества и эстетики.

Мне очень нравится слоган Whisk: «Меньше подсказывайте, больше играйте» (Пишите меньше подсказок, больше играйте).

Whisk создан в лабораториях Google, откуда также появился популярный ранее подкаст AI NotebookLM, который позже превратился в зрелый проект. Сама эта лаборатория является лучшим аннотированием этого лозунга.

Обладая мощными возможностями моделей, инновационными продуктами и непредвзятостью, Google, которому когда-то казалось, что OpenAI угрожает, спокойно продемонстрировал свое возвращение в качестве короля.

Чжан Ченгчен

Он остер, как осенний мороз, и может отвести злые бедствия. Рабочая электронная почта: zhangchengchen@ifanr.com

Электронная почта 8

# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo