Большое обновление Midjourney! Еще один артефакт искусственного интеллекта, генерирующий изображения, который «следует за вашими словами» Прилагается более 10 демонстраций сцен и сортировка дефектов.

7 апреля, 2025 Дядя Влад

PS, который когда-то считался необходимым навыком, теперь, похоже, находится в щекотливой ситуации: «можешь ты этому научиться или нет».

Последняя версия Gemini может менять изображения всего одним предложением, что делает это настоящим феноменом. С момента запуска функции мультимодальной генерации изображений GPT-4o сгенерированные изображения в стиле Ghibli почти за одну ночь распространились по Интернету.

С появлением новых сил ветеран-гигант по созданию изображений с использованием искусственного интеллекта Midjourney не собирается отставать и только что официально выпустил последнюю версию V7.

Ключевые моменты новой версии заключаются в следующем:

Улучшается общее качество изображения, лучше обрабатываются текстовые подсказки, значительно улучшается согласованность деталей на теле, руках и различных объектах.
Цвет кожи персонажа и детали лица стали более естественными и четкими, текстуры материалов (таких как перья, одежда) четко выражены, а эффекты света и тени реалистичны.
Может лучше понять и представить всю сцену, описанную подсказками, пространственные отношения между элементами разумны, а фон и объект хорошо интегрированы.
Способен точно отображать определенные углы обзора, стили съемки с низкого ракурса и крупным планом, чтобы продемонстрировать профессионализм.
Атмосфера и эмоциональное выражение слегка слабые, им не хватает драмы и тайны, а уникальности и креативности некоторых художественных стилей немного не хватает.

Важно отметить, что V7 — это первая версия, в которой по умолчанию включена персонализация модели. Чтобы использовать эту функцию, пользователям необходимо разблокировать настройки персонализации. Весь процесс занимает около 5 минут и его можно включить и выключить в любой момент.

Еще одной изюминкой V7 является «Режим проекта». Стоимость этого режима всего вдвое ниже стоимости стандартного, но скорость рендеринга изображения увеличивается в 10 раз.

При использовании в Интернете панель подсказок автоматически переключается в «режим разговора», и пользователи могут напрямую настраивать содержимое с помощью команд, например, заменять кошку совой или менять сцену на ночную, а система автоматически корректирует подсказку и генерирует новое изображение.

Нажав «Режим черновика» и включив кнопку микрофона, пользователи также могут войти в «Голосовой режим», чтобы творить в реальном времени с помощью голосовых команд. Если вам необходимо явно запустить задачу черновика, пользователь может добавить параметр «-draft» после приглашения, который подходит для таких сценариев, как перестановка, комбинация или повторное создание.

Чиновники Midjourney считают, что «черновой режим» — безусловно, лучший способ реализовать идеи.

Если пользователя устраивает черновик изображения, он может нажать кнопку «Улучшить» или «Изменить», чтобы повторно отобразить его в полном качестве. Следует отметить, что качество изображения в режиме «Черновик» ниже, чем в режиме «Стандартный», но его поведение и эстетика весьма последовательны и подходят для быстрой проверки идей.

▲Изображение: @U79916881747113

На данный момент V7 поддерживает два режима работы: Turbo и Relax. Турбо-режим быстрее, но стоит вдвое дороже, чем обычный режим V6; Черновой режим стоит вдвое дешевле. Режим стандартной скорости все еще оптимизируется и, как ожидается, будет запущен в ближайшее время.

В настоящее время функции увеличения, редактирования и повторного текстурирования вернутся к модели V6 и в будущем будут постепенно обновлены до V7. Функции мудборда и SREF уже доступны, а последующие обновления еще больше улучшат производительность.

Команда Midjourney сообщила, что в течение следующих 60 дней каждые одну-две недели будут запускаться новые функции, наиболее ожидаемой из которых является новая система ролей V7 и система ссылок на объекты.

Без лишних слов, давайте сначала посмотрим на картинки.

Известный блоггер @nickfloats поделился сравнением картинок, созданных версией MIdjourney V6/V7 на основе одного и того же слова-подсказки. Давайте посмотрим.

Быстрый:
Молодая индийская женщина с темными волосами, собранными в открытый хвост, и в черной куртке стоит в университетском кампусе и смотрит прямо в камеру. Изображение выполнено в стиле фильма 1990-х годов, все еще эстетично, с портретом крупным планом в солнечный день.
(Молодая индианка с черными волосами, собранными в свободный хвост, и в черной куртке стоит на территории колледжа и смотрит прямо в камеру. Фотография сделана в стиле кадра из фильма 90-х, на заднем плане солнечный день, портрет крупным планом.)

▲Слева: V6 Справа: V7

Свет в новой версии более естественный, особенно на лице персонажа, цвет кожи более четкий, детали богаче, фокус изображения более четкий, особенно прическа персонажа, но при этом также жертвуется некоторая атмосфера и эмоциональная выразительность.

Подсказка: величественная сипуха сидит на древней, покрытой мхом ветке дерева, окруженной туманным лесом. Сцена залита мягким светом, проникающим сквозь густую листву, создавая волшебную и неземную атмосферу. Фотореалистичный стиль с вниманием к деталям перьев и текстур.
(Величественная сипуха сидит на древней, покрытой мхом ветке, окруженной туманным лесом. Мягкий свет пробивается сквозь густые листья, создавая загадочную и неземную атмосферу. Стиль картины реалистичен и реалистичен, детально показывает фактуру перьев и коры.)

▲Слева: V6 Справа: V7

Новая версия перьев совы имеет более нежную текстуру, а перья имеют более сильное наслоение, а также эффекты света и тени, что делает их более реалистичными. Что касается позы совы, новая версия также более естественна. Тело слегка наклонено, что делает его более динамичным. Детали глаз также стали более яркими, передавая зоркий взгляд.

Короче говоря, вы не можете иметь свой торт и одновременно съесть его. V7 лучше добивается реализма; V6 может иметь больше преимуществ в достижении эффекта и загадочности изображения.

Подсказка: рука человека указывает на окно самолета, которое видно изнутри, с крылом, видимым в профиль. Небо снаружи показывает чистый горизонт на рассвете или в сумерках. Перед ними лежит бескрайний океан.
(Рука мужчины указывает на окно самолета, откуда сбоку видны крылья самолета. Небо снаружи чистое, а на линии горизонта виден рассвет или сумерки. Перед ним огромный океан.)

▲Слева: V6 Справа: V7

Это также сцена, когда вы выглядываете из иллюминатора самолета, указывая одной рукой в окно. Прогресс V7 виден невооруженным глазом. За счет добавления элементов крыла самолета повышается многослойность и реалистичность картинки, позволяя зрителю лучше почувствовать перспективу нахождения в самолете.

Подсказка: крупный план брокколи, обжаренной в масле, зеленые соцветия овоща контрастируют с темно-коричневым соусом. Большая ложка частично видна внутри кастрюли из нержавеющей стали, наполненной сверху карамелизованной блестящей черной глазурью, на фоне белого…
(Крупный план кусочка брокколи, обжаренного в масле, насыщенный зеленый цвет которого контрастирует с темно-коричневым соусом. Частично видна большая ложка в кастрюле из нержавеющей стали, покрытой глянцевым черным соусом карамельного цвета на белом фоне…)

▲Слева: V6 Справа: V7

V6 Хотя соус и ложка выделены крупным планом, фокус очень четкий, и внимание легко привлекается к текстуре и деталям соуса. Но с точки зрения слов-подсказок новая версия представляет собой более полную сцену приготовления, показывая сочетание брокколи и соуса во всей кастрюле, что более логически соответствует реальному процессу приготовления.

Подсказка: Крупный план лица аниме-женщины с шокированным выражением лица, темными волосами, в стиле аниме. Красочные анимационные кадры, интенсивность крупного плана, мягкое освещение, обзор камеры под низким углом и высокая детализация.
(Крупный план лица аниме-женщины с шокированным выражением лица и черными волосами, в стиле аниме. Красочная анимационная картинка, сильный крупный план, мягкий свет, снятая под низким углом, с очень мелкими деталями.)

▲Слева: V6 Справа: V7

Что касается обработки света, теней и цвета, V7 также соответствует требованиям «мягкого освещения» в слове-подсказке. Переходы света и тени на лице становятся мягче и естественнее, особенно распределение света и тени на глазах и щеках, создавая более трехмерный эффект.

Подсказка: динамичный кадр эпической космической битвы с изящными звездными истребителями, проносящимися мимо огромной космической станции, стреляющими лазерами и далекой планетой, видимой на заднем плане.
(Динамичная сцена из фильма показывает эпическую космическую битву: мимо пролетают обтекаемые истребители, в стороне стоит огромная космическая станция, стреляют лазеры, и отчетливо видны далекие планеты, образующие шокирующую картину.)

▲Слева: V6 Справа: V7

Что касается портретов, то в v7 улучшилась детализация и реалистичность деталей (одежды, кожи, света и тени и т. д.), а у персонажей выше трехмерность и интеграция с фоном, но регрессировала эмоциональная передача, драматургия и динамика выражений.

Ниже приведены три конкретных случая сравнения:

Подсказка: детективный фильм 1980-х годов, кадр с низкого ракурса, где злобный французский дворецкий в черном костюме держит свечу в коридоре жуткого викторианского особняка с заплесневелым декором. Теплый свет свечей вызывает жуткое ощущение тайны.
(На снимке с низкого ракурса, сделанном в стиле детективного фильма 1980-х годов, показан злобный французский дворецкий в черном костюме и со свечой в руках, стоящий в коридоре старого, заплесневелого викторианского особняка. Теплый свет свечей создает жуткую и загадочную атмосферу.)

▲ Слева: V6 Справа: V7

Подсказка: модная фотография уличного стиля 1990-х годов, снятая на Kodak 500T, на которой запечатлен крепкий 50-летний мужчина с вьющимися седыми волосами, пятичасовой тенью и строгим взглядом, идущий по тротуару ярким весенним утром в Париже. Он одет…
(Средняя уличная фотография в полный рост 1990-х годов, сделанная на пленку Kodak 500T, запечатлела мужчину лет пятидесяти с вьющимися седыми волосами, щетиной и серьезным выражением лица, идущего по тротуару ярким весенним утром в Париже. Он одет…)

▲Слева: V6 Справа: V7

Подсказка: кинематографический, смещенный от центра, двухкадровый 35-миллиметровый кадр из кинофильма, на котором 30-летний француз с вьющимися каштановыми волосами и испачканным бежевым свитером-поло читает книгу своей очаровательной 5-летней дочери в пушистой розовой пижаме и сидит в уютном уголке…
(Кинематографический 35-миллиметровый кадр фильма, снятый не по центру: 30-летний француз с вьющимися каштановыми волосами, одетый в испачканную бежевую рубашку-поло, читает своей очаровательной 5-летней дочери. Дочь одета в нежно-розовую пижаму и сидит в уютном уголке.)

▲Слева: V6 Справа: V7

Будет ли Conch AI+Midjourney лучшей комбинацией, позволяющей заставить изображения двигаться? Пользователь сети @inextastro тоже попробовал.

Фотография ниже, созданная @tanvitabs с использованием v7, прошла через все ловушки генерации изображений AI, включая дополнительную третью руку из воздуха, путаницу между футболками и костюмами и несовпадающую генерацию лиц.
[картина]

Наконец, вот задание класса. Какая из четырех фотографий ниже, созданных на основе одного и того же слова-подсказки, какая версия вам больше нравится? Пожалуйста, проголосуйте.

Подсказка: Элегантная женская модель стоит у большого окна в залитой солнцем комнате, мягкий утренний свет, отбрасывающий естественные блики и тени на ее лицо, одета в струящееся бежевое платье, непринужденная поза, минимальный макияж, глубина резкости объектива 85 мм, модная редакция образа жизни, кинематографические тона, воздушная атмосфера.
(Элегантная женщина-модель стоит рядом с большим окном комнаты, в которую светит солнце. Мягкий утренний свет отбрасывает естественные блики и тени на ее лицо. Она одета в струящееся бежевое платье, непринужденная поза и простой макияж. Снято с помощью объектива 85 мм, фон имеет небольшую глубину резкости, что создает ощущение редакционной моды в стиле жизни. На снимке царит киношный тон и много воздуха.)

Какой вариант картинки вам больше нравится:
Мидпути v7
Google Изображение 3
ЧатGPT 4o
Рив

В последние несколько лет основной темой создания изображений с помощью ИИ было стремление к аутентичности и отсутствию сальности.

В прошлом году Flux прорвался в индустрию и прославился созданием ультрареалистичных портретов. Теперь Midjourney V7 берет на себя эстафету и снова поднимает «реальность» на новый уровень с более богатыми деталями, более многослойным светом и тенями и естественной текстурой кожи.

Но является ли стремление к истине концом всего?

Недавно, с выпуском функции мультимодальной генерации изображений GPT-4o, распространилась неожиданная тенденция — изображения в стиле Ghibli буквально в мгновение ока зажгли Интернет, а также ворвались в мир генерации изображений ИИ, как весенний ветерок.

Появилось больше возможностей для технического выбора, изменился и способ создания. Говоря более популярно, это как сейчас стоять на кухне. Хотите ли вы плотно поесть или что-то темное, зависит только от вас.

# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo