Внутренний свет AI-видео, эта новая функция полностью освобождает руки при рисовании карт.
Не удовлетворены просмотром «Игры в кальмаров»? Просто придумай свою концовку.
Не хотите дождаться третьей части «Дюны»? Сделайте его сами.
В прошлом потребовалось бы много времени, чтобы удержать этих актеров от потери формы и разрушения. Теперь вам нужно только кинуть ИИ скриншот и можно приступать к созданию фильмов.
Это функция «ссылка на предмет», запущенная Conch AI. Она поддерживается новой моделью S2V-01 и может точно идентифицировать объект в загруженном изображении и установить его в качестве персонажа в сгенерированном видео. Остальное можно использовать как угодно по простым подсказкам.
▲Создано пользователем X @KarolineGeorges, информация о лице точно сохранена.
▲Творение пользователя X @Apple_Dog_Sol, представляющее несколько предметов
Почему «Справочник по теме» такой классный?
На самом деле, многие производители выполняют функцию «предметной ссылки». Но не каждый может преодолеть трудности, связанные с этой функцией: стабильность, последовательность и последовательное движение.
Другие, возможно, не смогут, но Conch AI сможет. С помощью всего лишь одного изображения вы можете точно понять характеристики персонажей, идентифицировать их как субъекты, а затем заставить персонажей появляться в различных сценах и средах.
Человек-Паук, который в одну секунду спасал мир, в следующую уже ехал на мотоцикле.
Мать-дракон, которая должна была дрессировать дракона в «Игре престолов», теперь дразнила маленького волчонка.
Прорывной прогресс «Main Reference» заключается в достижении идеального баланса между творческой свободой и сокращением. Это как дать создателю «универсального актера». Внешний вид актера не будет разрушаться, а может естественным образом меняться движениями и позами. Он также может выполнять любые действия в любой сцене по требованию режиссера.
Не только новые возможности, но и уникальные технические решения
Ощущение от фактического измерения таково: основная ссылка — это совершенно другая функция, которая отличается от эффектов, достигнутых Винсентом и Тушенгом. Технические трудности, связанные с этим, другие, и требования к техническим идеям также разные.
Традиционные видеоролики Тушэн лишь анимируют статичные изображения и в основном вносят локальные изменения. Возьмем, к примеру, этот кадр Сон Хе Гё. Ту Шэн только что превратил исходное статичное изображение в динамичное, и его возможности ограничены, и никаких больших движений не будет.
▲ Оригинальные кадры
▲ Фильм по мотивам видео Тушэна
Для одной и той же фотографии «предметная ссылка» может образовывать целостный фрагмент на основе текста подсказки. Пока движения свободны, черты лица еще стабильно реализуются.
▲ подсказка: теплое освещение в помещении, в зрительном зале театра главный герой одет в черный костюм и сидит в среднем ряду слева. Выражение ее лица сосредоточено, иногда она демонстрирует расслабленную улыбку, хлопает в ладоши, а ее движения естественны и ритмичны. Камера стартует со стороны главной героини, фиксируя силуэты других зрителей вокруг нее и матовую фактуру сидений, подчеркивающую многослойность окружающей среды. По мере продвижения камеры главный герой встает.
В настоящее время существует два технических способа создания видео на основе людей. Один из них основан на технологии LoRA и предназначен для тонкой настройки предварительно обученных крупномасштабных генеративных моделей. LoRA требует большого количества вычислений при создании новых видео. Это приводит к тому, что пользователям приходится загружать материалы одной и той же темы и под разными углами и даже уточнять, какие элементы должны быть в одном клипе, чтобы обеспечить качество производства. В то же время это также требует большого потребления токенов и длительного времени ожидания.
Основываясь на большом количестве технических исследований, MiniMax выбрала технический путь, основанный на эталонах изображений: изображения содержат наиболее точную визуальную информацию, начиная с изображений, и соответствуют творческой логике физической съемки. В этом техническом пути главный герой изображения является для модели главным приоритетом для идентификации среди всей визуальной информации – независимо от того, какое изображение появляется следующим или каков сюжет, объект должен оставаться последовательным.
Другая визуальная информация более открыта и контролируется текстовыми подсказками. Таким образом, может быть достигнута цель генерации «точная реставрация + высокая степень свободы».
▲На поляне долины главный герой стоит перед гигантским драконом, его длинные волосы развеваются на ветру. Камера постепенно приближается, чтобы запечатлеть, как главный герой поворачивается и смотрит вдаль. Крылья дракона расправляются, развевая волосы и юбку главной героини. Сцена заканчивается кадром сверху.
В этом видео модели было отправлено только изображение Матери-Дракона. В финальном видео модель точно представила язык объектива и элементы изображения, задействованные в подсказке, продемонстрировав свою высокую способность к пониманию.
По сравнению с решением LoRA, технический способ ссылки на изображения может заметно сократить количество загружаемых пользователями материалов, а десятки видеороликов превращаются в одно изображение. При этом время ожидания исчисляется секундами, что мало чем отличается от времени, необходимого для генерации текста и картинок — оно обладает точностью видео Tusheng и свободой видео Vincent.
Домашний свет может удовлетворить ваши «хотения и потребности».
«Иметь и то, и другое» — не чрезмерная просьба. Только достигнув одновременно точной согласованности и свободного движения персонажей, модель может выйти за рамки жизни и создания эскизов и иметь более широкую потребительскую ценность в сценариях промышленного применения.
Например, в рекламе продукта изображение модели может напрямую генерировать видеоролики для нескольких продуктов, и этого можно добиться, просто изменив подсказку.
Если это реализовано с использованием Tusheng Video, текущее основное решение состоит в том, чтобы установить первый и последний кадры, а достигаемые эффекты также ограничиваются существующими изображениями. В то же время вам придется неоднократно вытягивать карты, собирать разные ракурсы и, наконец, соединять материалы вместе, чтобы получить набор длинных планов.
Сочетая в себе характеристики различных технологий, он больше соответствует рабочему процессу создания видео, что является преимуществом «Тематического справочника». В будущем более 80% маркетологов будут использовать генеративные инструменты в различных ссылках. Им нужно сосредоточиться только на сюжете и концепции сюжета, освободив руки для рисования карт.
Статистика Statista показывает, что размер рынка генеративных продуктов искусственного интеллекта в рекламном маркетинге превысит 15 миллиардов долларов США в 2021 году. К 2028 году эта цифра достигнет $107,5 млрд. В предыдущем рабочем процессе чистые видеоролики Винсента были слишком неуправляемыми, поэтому их можно было использовать на ранних этапах создания. Генеративный ИИ стал очень распространенным в рекламной и маркетинговой индустрии в Европе и США: 52% случаев его использования находятся на этапе первоначальной разработки и планирования, а 48% — при мозговом штурме.
В настоящее время Conch AI впервые открывает справочные возможности для одного персонажа. В будущем он расширится до более широких справочных возможностей для нескольких людей, объектов, сцен и т. д., чтобы еще больше освободить творческий потенциал. «Всем идея — фильм-блокбастер».
С момента выпуска видеомодели MiniMax в августе прошлого года она продолжает привлекать внимание и опыт большого числа пользователей за рубежом с точки зрения качества изображения, плавности, последовательности и стабильности, включая многих практиков, имеющих опыт создания изображений. много положительных отзывов и профессиональное признание.
В технологической конкуренции за последний год или около того изначально возникла конкурентная среда в области генерации видео с помощью искусственного интеллекта. Внедрение Sora позволило людям увидеть потенциал в области генерации видео. Впоследствии крупные технологические компании вложили ресурсы в эту область и вложили значительные средства в исследования и разработки.
Из-за задержки запуска продукта Sora в конце года и посредственной репутации пользовательских испытаний он не оправдал ожиданий рынка. Это также дает возможность другим игрокам захватить рынок.
Сегодня, когда генеративное видео приближается к своему второму полугодию, есть только три компании, которые действительно продемонстрировали свою техническую мощь и потенциал развития: Conch AI от MiniMax, Keling AI от Kuaishou и Jimeng AI от ByteDance.
Будучи начинающей компанией, которая была основана всего три года назад, MiniMax предлагает продукты и технологии, которые способны достичь уровня T0 благодаря своему способному стартовому органу. От модели видео Tusheng I2V-01-Live, выпущенной в декабре прошлого года, до нынешней новой модели S2V-01 — все они решают острые проблемы создания видео в прошлом.
Поскольку технологии продолжают развиваться, а сценарии применения постепенно расширяются, искусственный интеллект для генерации видео откроет новый виток революции в создании контента, производстве фильмов и телевидения, маркетинговых коммуникациях и других областях. Эти производители, представляющие высший уровень в области искусственного интеллекта для генерации видео в Китае, не только продолжают лидировать на внутреннем рынке, но и, как ожидается, будут конкурировать с международными гигантами в глобальном масштабе. В то же время, как обеспечить стабильность и управляемость продукта, сохраняя при этом технологические инновации, будет постоянной проблемой, с которой столкнутся эти компании.
# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo