Победите Midjourney, почему этот продукт искусственного интеллекта, выпущенный гигантом Google, обгоняет другие в углу?

Никто не может всегда быть королем, но с приставкой шанс стать королем есть у каждого.

Какие новые трюки может проделать ИИ Вэньшэнту?

В этом красном море, где доминирует группа героев, голову занимают Midjourney, DALL·E, Stable Diffusion и т. д., и не так уж много других продуктов, которые могут заставить людей сиять.

Тем не менее, темные лошадки все еще появляются: Ideogram, основанная бывшими инженерами Google и проинвестированная мастерами искусственного интеллекта из Кремниевой долины, была запущена в августе прошлого года и выпустила свою последнюю модель в конце февраля.

Что делает Ideogram особенным, так это то, что он хорошо генерирует изображения, содержащие текст, и это именно та проблема, которую решают несколько гигантов.

Факты доказали, что вставать с того места, где упали другие, – это способ обгонять в поворотах.

Он может «рисовать» и «фотографировать», но ИИ все равно может быть «неграмотным».

Для ИИ всегда было проблемой точно генерировать текст.

▲ Текст ошибки, созданный Midjourney v5.2.

Ideogram встала и заявила, что не позволяет ИИ оставаться «неграмотным» и может начать с него.

Порог доступа к Ideogram очень низкий. Просто откройте веб-страницу (https://ideogram.ai/) и войдите в систему, чтобы использовать ее. Интерфейс выглядит свежо и несложно.

Для создания изображения требуется не так много шагов. Введите слова-подсказки в поле ввода, а затем проверьте соотношение сторон изображения, а также стили изображения, такие как фотографии, плакаты и 3D-рендеринги, в соответствии с желаемым эффектом.

Ideogram также приняла во внимание, что людям может быть «трудно» произносить подсказки. подобных людей.

Какие изображения содержат текстовый контент? Логотипы продуктов, печать на футболках, обложки книг, постеры к фильмам…

Давайте сначала проведем тест начального уровня, попросив нескольких человек поднять табличку с названием животного. На первый взгляд текст правильный, но лицо и руки ненормальные. Они нейтрализуют друг друга. Получается, что недостатки не исчезли, а лишь перенеслись.

Если вы позволите писать только идеограмме, эффект будет гораздо более потрясающим.

Пусть ИИ сгенерирует классическое предложение Маска: «Я предпочитаю быть оптимистом и неправым, чем пессимистом и правым».

Шрифт немного более живой, и Маск, родившийся в 1970-е, не знает, сможет ли он его принять, но столкновение черного и белого должно удовлетворить того, кто изменил Маленькую Синюю Птичку.

Взяв в качестве тестового вопроса классическую пословицу «Вся работа и отсутствие игр делают умного ребенка глупым», хотя в слове-подсказке подчеркивается использование шрифтов принтера, Ideogram не смогла этого сделать. Кажется, что шрифт невозможно определить с помощью одних только слов-подсказок, а можно только приблизительно определить.

Затем ИИ было поручено разработать логотип для ИИ-стартапа под названием «Coffee AI».

Основной корпус представляет собой кофейную чашку с узором в виде схемы. В правом верхнем углу изображен робот-бариста. Название компании написано жирными заглавными буквами. Макет простой и сдержанный. Как логотип он очень интуитивно понятен, но вообще говоря, это ожидаемо, и об этом трудно сообщить людям.Фанг принял быстрое решение.

Пришло время усложнить ИИ, добавив более длинные предложения и более высокие требования к дизайну.

Я попросил компанию Ideogram разработать внутреннюю страницу детской книжки с картинками. На ней не только должно быть написано «Лиса в носках и кролик в цилиндре» на видном месте, но и внизу должна быть пометка «Аноним».

Для этих двух строк текста Ideogram в основном выполнила задачу, используя нарисованные от руки шрифты и граффити мелом, и даже включила иллюстрации, соответствующие смыслу названия.Вкус книжки с картинками правильный, но ошибки также очень бросаются в глаза. Что-то не так со словом «в», кролик похож на лису и является лисе братом.

Идеограмму также можно использовать для постеров фильмов, например, популярного фильма «Три зла» с Итаном Руаном в главной роли, ставшего популярным некоторое время назад.

В подсказки я смешала аллюзии и кинофильмы, в качестве фона использовали изображения силуэтов рыцарей, морей и гор, а в тексте были отсылки к английским названиям фильмов: Pigs, Snakes и Doves.

За исключением отсутствующей буквы "the", окончательный эффект постера довольно хорош, сочетая в себе классические изображения и современные шрифты. Граффити с голубями – это последний штрих, но в целом это больше похоже на стиль западного фэнтези, который заставляет людей чувствовать себя незнакомыми и трудными для восприятия. ассоциироваться с ним.Сюжет фильма.

По опыту я обнаружил, что вероятность текстовых ошибок в идеограмме не мала.Иногда она генерируется два или три раза, чтобы получить идеальный дословный результат.

Даже если текст правильный, лица и пальцы персонажей часто выглядят не так.

Он также может добавлять какие-то причудливые трюки, случайным образом генерировать бессмысленный и искаженный текст и давать себе пощечину.

▲Маленькие персонажи слиты в шарик.

Но в целом Идеограмма удивляет. Она может писать длинные предложения и использует соответствующие шрифты и методы компоновки, чтобы соответствовать атмосфере изображения. Хотя она еще не умеет писать по-китайски, слова, такие как призрачные символы, очень хорошо вписываются в складки. одежды.

▲ Эти четыре слова на самом деле означают «Гун Си Фа Цай».

Несмотря на свои недостатки, для Ideogram уже существует множество сценариев использования. Его можно использовать в качестве источника вдохновения и творческого помощника при разработке логотипов, плакатов и рисунков футболок.

Раньше я беспокоился, что ИИ сможет «рисовать» и «фотографировать», но в будущем я буду беспокоиться, что ИИ будет грамотным и способным к проектированию.

Эстетика не уступает Midjourney, а еще это инструмент для создания смайлов.

Прогресс в области ИИ измеряется днями, и мир может измениться, как только вы проснетесь. Хотя Ideogram утверждает, что ее возможности рендеринга текста самые сильные, ее оппоненты не признают своего поражения.

Stable Diffusion 3, который еще не выпущен для широкой публики и имеет открытый исходный код, был официально анонсирован в феврале и имеет улучшенные возможности написания текста.

▲ Орфографические способности Stable Diffusion 3.

Midjourney v6, бета-версия, выпущенная в декабре прошлого года, является первой версией Midjourney с надежными возможностями генерации текста.

Однако требования к нему по-прежнему весьма жесткие: помимо помещения текста в кавычки, слова-подсказки желательно должны объяснять расположение и способ написания текста, а также использовать такие ключевые слова, как «печать» и «письмо», один-два слова Генерация текста работает лучше всего.

▲ Функция генерации текста Midjourney v6.

Команда Ideogram, которую преследовали, не паниковала и считала, что преимущество на мне: Ideogram по-прежнему имеет более высокий показатель точности и может обрабатывать сложные и длинные предложения.

Оценка системы Ideogram также показывает, что Ideogram 1.0 имеет высочайшую точность рендеринга текста, при этом частота ошибок снижается почти в 2 раза по сравнению с другими моделями, такими как DALL·E 3.

Вместо того, чтобы просто говорить и отрабатывать трюки, лучше использовать одни и те же слова-подсказки и позволить Ideogram 1.0 конкурировать с Midjourney V6 и DALL·E 3 на одной сцене.

Для начала сравним точность сгенерированного текста.Я попросил ИИ нарисовать иллюстрацию восхода солнца в стиле укиё-э.Классическая строка «Завтра новый день» из «Унесенных ветром» была помещена в подходящее положение, чтобы выразить надежду и возрождение.

На этот раз победителем стала «Идеограмма» с точным написанием и смелым и выдающимся дизайном линий и цветов.

У ДАЛЛ·Э, никогда не отличавшегося особой артистичностью, неожиданно появляется фактура. Текст в основном правильный, но не совсем правильный, а стиль живописи более абстрактный. Мало того, что текст «Мидджорни» неточен, но и эстетика уступает, и он даже не выслушал внимательно вопрос.

▲ Слева — ДАЛЛ·Э, справа — Мидджорни.

Второй — соревноваться в умении создавать мемы. В Ideogram официально упоминается функция генерации смайлов. С помощью «волшебных подсказок» ИИ будет использовать свое воображение, чтобы расширять слова-подсказки и добавлять копирайтинг, чтобы сделать картинки эмоциональнее.

Я хотел посмотреть, сможет ли ИИ создать смайлик работающего кота, поэтому я ввел подсказку: «Нарисуйте интересный мем о плачущем коте в галстуке-бабочке и рубашке, печатающем перед компьютером, как метафору тяжело работающего человека. "

Идеограмма использовала свое воображение и сознательно добавила текст «Кошкам тоже приходится работать».

Единственный недостаток – там лишний "хейв" и неправильное количество пальцев на передних лапах. Похоже, у ИИ беда не только с человеческими руками, но и с кошачьими лапами. По сравнению с оригинальным пакетом смайлов, он вполне удовлетворительен и не может быть таким случайным, как «Голова плачущего кота».

▲ Слева — изображение сети, справа — идеограмма.

Кот Мидджорни серьезен и элегантен, словно это писатель, ставший богатым и свободным, и больше похож на журнальную фотосессию, но мышка не понимает, что происходит.

▲ Слева — Midjourney, справа — DALL·E.

У DALL·E самые лучшие эмоции. Хотя стиль рисования немного непринужденный, у него есть преимущество в том, что он грубый. Кажется, что слезы лапши, которые не находятся в одном слое, имеют внутренний аромат. Это действительно подходит для того, чтобы быть используется как пакет смайликов.

В-третьих, способность понимать сложные и длинные слова-подсказки, особенно, являются ли элементы слова-подсказки полными и точна ли позиция слова-подсказки.Поэтому я ввел относительно длинное слово-подсказку и оговорил положение каждый предмет.

Идеограмма лучше смотрится в общей композиции. Включены несколько ключевых моментов, упомянутых в подсказках. Включены бренд в форме сердца, робот, космонавт, воздушный шар и медаль, хотя такие детали, как рука космонавта и слова на медали, отсутствуют. вопрос.

По сравнению с ним, Midjourney более артистичен, но элементы отсутствуют, есть некоторые декорации, которых нет, и у него есть свои идеи и индивидуальность. В DALL·E не только отсутствуют элементы, но и детали неправильные, и это тоже выглядит не очень.

▲ Вверху — Midjourney, внизу — DALL·E.

Так что независимо от текста, просто глядя на качество изображения, Идеограмма тоже неплоха.Иногда восстановление пространственных отношений различных объектов в словах-подсказках точнее, чем у других ИИ.

С точки зрения пользовательского опыта, скорость создания идеограммы выше, чем у Midjourney. Обычно четыре изображения могут быть созданы более чем за десять секунд.

Даже в соответствии с отраслевыми правилами оценки оценщики-люди предпочли Ideogram 1.0 DALL·E 3 и Midjourney V6 с точки зрения быстрого выравнивания, связности изображения, общего предпочтения и качества рендеринга текста.

Даже если вас не устраивают изображения, сгенерированные Ideogram, если вы воспользуетесь ее волшебными словами-подсказками, сгенерированный эффект на Midjourney и DALL·E может быть лучше, чем протирание вручную. Это можно рассматривать как способ оптимизации подсказки. слова.

Никто не сможет превзойти меня в моей фоновой музыке, но если одно и то же слово-подсказку используют разные ИИ, результат действительно неопределенен.

Звездная компания, основанная инженерами Google, предлагающая простые продукты искусственного интеллекта.

Компания Ideogram была создана в августе прошлого года, а в феврале этого года выпустила свою последнюю модель Ideogram 1.0.

Это еще одна звездная компания, основателями которой являются семь человек из Google Brain, Калифорнийского университета, Беркли, Университета Карнеги-Меллон и Университета Торонто, четверо из которых являются авторами исследовательской работы Imagen по модели диффузии графов Google Винсента.

Осторожный Google часто медлит с запуском продуктов и много раз наблюдал, как его конкуренты становились известными по всему миру.

С точки зрения инженеров, то, что результаты исследований не могут быть реализованы в потребительских приложениях, нехорошо. Многие люди решили уйти и сами создавать новые продукты, делая их максимально открытыми для использования и сначала накапливая масштабы пользователей и репутацию.

Бесплатная квота Ideogram в 25 подсказок в день также может быть основана на этом соображении.

Рынок настроен очень оптимистично в отношении этого продукта. Ideogram завершила раунд финансирования Series A на сумму 80 миллионов долларов под руководством венчурного капитала Кремниевой долины a16z. Среди инвесторов – мастера искусственного интеллекта, в том числе главный научный сотрудник Google Джефф Дин и член команды основателей OpenAI Андрей Карпати.

Фактически, после знакомства со многими продуктами ИИ у меня тайно возник вопрос: как определить полезность продукта?

▲ Выкройка футболки, созданная Ideogram.

Раньше мне пригодился плагин "Immersive Translation". В отличие от Google Translate, он охватывает исходный текст и его можно сравнивать между китайским и английским языками. Его можно использовать не только на новостных веб-страницах, но и в X информационных потоках. , субтитры YouTube и файлы PDF.

Идеограмма кажется такой приземленной. С одной стороны, он может более точно генерировать необходимый пользователям текстовый контент и адаптироваться к различным стилям изображений. С другой стороны, он также может создавать что-то из ничего и сопоставлять изображения с подходящим текстом, например смайликами.

Хотя многие результаты, сгенерированные Ideogram, не могут быть использованы немедленно, они, по крайней мере, в основном соответствуют требованиям к подсказкам, и большая часть текста удобна для чтения.

По своему опыту я также обнаружил, что реалистичные изображения Ideogram средние, но граффити, иллюстрации и картины хороши, а художественный талант находится на одном уровне с Midjourney.

▲ Иллюстрации граффити, созданные Ideogram.

На официальном сайте Ideogram также есть рейтинги популярности различных произведений. В тот момент, когда вы открываете веб-сайт, вы, кажется, по ошибке вошли в сообщество изображений в стиле Instagram, и вы также можете выучить слова-подсказки выше.

Когда инструмент искусственного интеллекта сочетает в себе креативность, удобство и обмен информацией, к нему легко впасть в зависимость. Конкретным проявлением является то, что 25 подсказок в день быстро расходуются. Это тревожное чувство похоже на ожидание обновления баллов Suno.

При ежемесячном членстве в размере 7 или 16 долларов США, помимо увеличения времени генерации, Ideogram также предоставляет функции загрузки и редактирования изображений.

Загрузка изображений означает, что пользователи загружают свои собственные изображения, а затем воссоздают их с помощью функции Remix.

▲ Слева — исходное изображение, справа — результат.

Помимо штатных функций, таких как обрезка и масштабирование, в редакторе имеется еще интересный инструмент для рисования, генерирующий картинки из абстрактного рисунка. Художники-люди примерно обрисовывают форму, состав, цвет и т. д. каждого элемента, а ИИ отвечает за превращение распада в магию, давая Ма Ляну ощущение дежавю.

Идеограмма может пережить кровавую бурю, простота использования, конечно, самое главное, а ее позиционирование также очень точное.

Если эстетика является самым важным критерием, то Midjourney берет верх. Хотя уровень DALL·E то вверх, то вниз, встроенный ChatGPT удобен для вызова, а Stable Diffusion с открытым исходным кодом приносит свободу.

С точки зрения масштаба пользователей, Ideogram, возможно, не сможет превзойти ни одного из них, но он проделал хорошую работу в своем длинном списке и должен иметь возможность получить собственную солидную аудиторию.

По крайней мере, среди бесплатных генераторов изображений AI, Ideogram лидирует по общему качеству, веб-страница проста в использовании, предоставляются бесплатные кредиты, мощный рендеринг текста, функция волшебной подсказки и сообщество создателей обеспечивают творческий подход и вдохновение.

Модели диаграмм Винсента далеки от совершенства и все еще усердно работают над тем, чтобы восстановить физический мир или стать на один уровень с художниками и дизайнерами. Другие идеограммы все еще могут найти свое место.

Вот в этом и заключается жестокость и очарование конкуренции ИИ: не знаю, кто будет смеяться последним, но всегда найдутся новые противники, нацеленные на ахиллесову пяту.

Он остер, как осенний мороз, и может отвести злые бедствия. Рабочая электронная почта: [email protected]

# Добро пожаловать на официальную общедоступную учетную запись aifaner в WeChat: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo