Видеоартефакт искусственного интеллекта, который настолько популярен на Xiaohongshu, что это новое занятие не позволяет мне остановиться.

22 декабря, 2024 Дядя Влад

Многосубъектность видеороликов с искусственным интеллектом всегда была проблемой. Нетрудно позволить ИИ создавать модели и одежду из воздуха, но если партия А потребует от Маска одобрения и ношения плюшевого пальто, ИИ, возможно, не сможет этого сделать.

Недавно обновленная модель Pika 2.0 предлагает очень интересное решение: мы загружаем несколько изображений, и Pika будет точно ссылаться на элементы изображений для создания видео.

Соберите фотографии персонажей, продуктов и сцен, и будет создан очень простой рекламный видеоролик, и эти материалы будут выглядеть в видео так же, как и на фотографиях.

Означает ли это, что проблема согласованности видео AI решена, и друзья в рекламной индустрии снова будут беспокоиться? На самом деле это не так. После реального тестирования Пика очень играбельна, но с точки зрения практичности она недостаточно практична.

Маск и Альтман смотрят фильмы и едят картошку фри со знаменитыми картинами. Никогда еще не было так легко находиться в одном кадре.

Функция Pika по загрузке нескольких эталонных изображений называется «Ингредиенты сцены».

Использовать его очень просто: 1. Нажмите «+», чтобы загрузить изображения, до 6 изображений. 2. В текстовом поле напишите простое слово-подсказку;

Далее перейдем к самой операции — пусть Маск и Ультрачеловек, попавшие в глубокую беду, превратит свою враждебность в дружбу и вместе посмотрят фильм.

▲Подсказка: В темном зале сидят два человека. Они держали в руках ведро попкорна, кладли пригоршню в рот и жевали, концентрируясь на сцене перед собой. Выражение их широко раскрытых глаз выражает нетерпеливое ожидание или восхищение, как будто они полностью погружены в разворачивающуюся драму или сцену. Окружение предполагает большую толпу, но основное внимание остается на их реакции.

Достаточно загрузить фотографии вас двоих, и зрители смогут выписывать слова-подсказки.

По мнению Маска, искусственный интеллект стабилен. Но Ультрачеловек выглядит как глупый сын домовладельца. Не говоря уже о том, что он выглядит ужасно, а глаза у него такие большие, что вот-вот выпадут.

Самое интересное в Пике то, что материалы можно «использовать повторно».

Поэтому мы можем позволить Маску и Альтману пристраститься к моделям. Просто загрузите фотографию одежды, а затем с помощью подсказок предложите им надеть такое же зеленое пальто и снять модный блокбастер.

▲Подсказка: двое мужчин стояли вместе и делали селфи на фоне великолепного зимнего пейзажа. Оба были одеты в одинаковое длинное зеленое пальто. Снимки всего тела, показывающие их с головы до ног. Они позируют как профессиональные модели с уверенными улыбками на лицах. Кинематографическое освещение подчеркивает их лица и роскошную текстуру шерсти. Высококачественный модный стиль фотографии, профессиональное качество камеры, эстетика модного журнала

Все фотографии этих двоих были готовы. Зеленое пальто и ледяной и снежный фон были созданы отдельно с помощью ИИ. Надпись «AIGC» на одежде была дополнительным вопросом для проверки Пики.

В результате целостность сцены и пальто сохранялась хорошо, слова «AIGC» были смутно различимы, а движения двух моделей также следовали за подсказками.

Но главный вопрос: кто эти двое? Лица на видео и на фотографиях нельзя сказать, что они абсолютно одинаковые, можно сказать, что они совершенно не связаны между собой.

Если вы не верите в зло, продолжайте позволять Пике играть в переодевания.

На этот раз мы предложили Цукербергу использовать инструменты искусственного интеллекта для создания одежды, как обычно, с написанными на ней словами «Я был человеком», перекликающимися с классическим мемом о роботах.

Затем найдите изображение Цукерберга и изображение гавайской гитары и позвольте Цукербергу играть музыку.

▲Подсказка: мужчина в черной футболке стоит в теплой комнате и играет на гавайской гитаре. Камера начинает со среднего дальнего плана, показывая все его тело, постепенно приближается и, наконец, фокусируется на надписи на футболке.

Пика следует подсказкам и очень хорошо двигает камеру, и одежда идет плавно, но ее правая рука, особенно большой палец, все еще не идеальна.

По сравнению с Google Veo, OpenAI Sora и т. д. возможности модели Pika не являются первоклассными. После решения одной проблемы обнаруживается больше ошибок.

Я попробовал реализм, а затем попробовал двухмерный стиль рисования. Чтобы поместить Сакату Гинтоки и Узумаки Наруто в один кадр, я специально подобрал две картинки с голубым небом и белыми облаками на заднем плане.

▲Советы: сцена в стиле аниме: камера фокусируется на лицах двух молодых людей на фоне голубого неба и белых облаков. Во время разговора они смотрели в глаза, сохраняя оригинальный стиль аниме.

Фон сливается очень естественно, выражения лиц обоих хорошо сыграны, а ветер, развевающий их волосы и одежду, просто идеален. Однако оборачиваться было слишком страшно. У Гинтоки мертвые глаза, он даже не закатывает глаза.

Пространственные стены разрушены, и, конечно, знаменитые картины могут взаимодействовать между поколениями — Мона Лиза и девушка с жемчужной серьгой, поедающая картофель фри в ресторане «Макдональдс».

▲ Подсказка: Мона Лиза и девушка с жемчужной серьгой ужинают в ресторане «Макдоналдс». Они сидели друг напротив друга, с фишками на столе. Пока они болтают и пробуют картофель фри, камера снимает их сбоку, причем два персонажа время от времени смотрят в камеру, создавая непринужденную и дружескую атмосферу.

Эффект трудно описать. Когда я увидел Мону Лизу, мне стало интересно, хотел ли Леонардо да Винчи поднять доску гроба. Они оба были размещены на видео как наклейки, и их головы очень странно двигались.

Иногда, если вернуться к простоте и следовать естественным путем, результаты превосходят ожидания.

▲Подсказка: Крупным планом на поверхности пруда появляются пузырьки, а затем из воды появляется чашка кофе.

Загрузите фотографию Starbucks или изображение кувшинок Моне, и вы получите чашку кофе с «гибискусом, прорастающим в чистой воде».

PK отечественная модель, порог управления AI-видео ниже

В определенной степени Пика улучшает управляемость видеороликов. Я не могу сказать достаточно, потому что с практической точки зрения Пика сохраняет лучшую согласованность в сценах, костюмах и предметах, а лицо персонажа легко свернуть, независимо от того, в каком измерении оно находится.

При этом базовые возможности модели Пика также нуждаются в доработке, а проблемы с перемещением объектов, например, с едой и игрой на пианино, все равно будут возникать. Можно ли решить эти проблемы, вытягивая карты?

Три слова: я не могу себе этого позволить.

Pika 2.0 в настоящее время доступна только для пользователей Pro и Fancy. Если вы подписываетесь на ежемесячную основе, она будет стоить вам не менее 35 долларов в месяц, при этом ограничений на бесплатную пробную версию нет.

Причём у пользователей Pro есть всего 2000 баллов в месяц, а за использование функции Scene Ingredients видео будет стоить 100 баллов.

▲виду-интерфейс

Фактически, отечественная видеомодель с искусственным интеллектом Vidu реализовала функцию «многоизображения» раньше, чем Pika. Что еще более интересно для пользователей, так это то, что у него есть баллы за бесплатную пробную версию.

Я также проверил несколько случаев Пика в Виду. Мона Лиза и Девушка с жемчужной сережкой едят картофель фри. Эти две фигуры были только что обнаружены, но Мона Лиза более восстановлена, чем Пика.

Маск и Ультрачеловек вместе смотрели фильм. Лица Маска были похожи на 70–80%, но лицо Ультрачеловека все равно было катастрофическим.

Саката Гинтоки и Узумаки Наруто находятся в одном кадре. Виду действительно может создать боковую грань на основе передней, но стиль рисования отличается от исходного изображения.

Кроме того, по функционалу Виду не так хорош, как Пика — загрузить можно только до трёх картинок. Поэтому, когда я попросил Виду снять модную фотосессию для Маска и Ультрачеловека, я не загрузил фон, а только фотографии их двоих и их зеленых пальто.

Они оба чувствуют себя очень странно. Видно, что устойчивость человеческих лиц по-прежнему остается проблемой.

По сравнению с Пикой, насколько эффективен Виду, вопрос мнения. Пика использует версию Pro, а Виду — бесплатную, что объективно приводит к различиям между ними.

Но идеи Пики и Виду схожи — генерировать относительно устойчивые объекты с помощью всего лишь нескольких графических материалов и простого слова-подсказки.

При создании видео с использованием искусственного интеллекта для обеспечения согласованности предметов относительно надежным в настоящее время решением LoRA является использование определенного количества тематического материала для точной настройки модели. При соответствующем количестве материалов и обучении модель сможет постепенно освоить внешний вид и характеристики этого персонажа.

Но для того, чтобы видео ИИ использовалось большим количеством людей и имело более широкую коммерческую ценность, порог необходимо снизить. По крайней мере, в Виду и Пике мы видим возможности.

Положитесь на короткие видеоролики ИИ, чтобы выйти из круга, и вы никогда не вернетесь на путь здоровой жизни.

Всего через несколько дней после выхода модели Пики 2.0 зарубежные пользователи сети сошли с ума.

Делая собственные фотографии и неоднократно создавая видео различных сцен, вы можете реализовать «мгновенную вселенную».

▲ Изображение: X@EladRichardson

Благодаря настройке в один клик с помощью AI модели и одежда плавно перемещаются, и сцену не нужно менять, что экономит деньги на реальной съемке.

▲ Изображение: X@martgent

Во время игры Пика дал мне ощущение игры в «QQ Show» и The Sims. Мы решаем, как одеть персонажей в видео.

Маску было бы легко «воплотить в жизнь свою мечту». Сначала он использовал другие инструменты искусственного интеллекта для создания футболки с надписью «Оккупай Марс» и красной шляпы с надписью «МАГА».

Затем загрузите в Pika эти фотографии, сцены с Марса, фотографии Маска, его робота-гуманоида Оптимуса Прайма и прототипа Doge из его любимого пакета смайликов интернет-знаменитостей.

▲Подсказка: на поверхности Марса стоит мужчина в черной футболке и красной шляпе. Слева от него сидит собака, а справа стоит робот. Камера начинается с общего плана, на котором запечатлены тела людей, собак и роботов в полный рост. Когда камера постепенно приближалась, мужчина весело махал в сторону камеры, выражение его лица было наполнено радостью и духом приключений.

Наконец появился солнечный и весёлый мальчик, держащий в левой руке жёлтую руку, а в правой — голубое небо. Он был честен и честен, но совсем не был похож на Маска.

Кажется, это не одно и то же: если у вас непредвзятость, есть бесконечное количество способов игры.

Погоня за звездами может быть безболезненной, основываясь на фотографиях самих себя и известных людей. Загрузите шляпы, одежду и музыкальные инструменты, чтобы одеться с головы до ног. Соберите сцены, продукты и модели, и вы получите 5-месячный рекламный фильм со спецэффектами…

Фотографии + изображения AI + Pika 2.0 + слова-подсказки позволяют создать множество интересных изображений. В то же время этот метод генерации также позволяет избежать некоторых недостатков видеомодели, таких как запись, которые можно решить с помощью модели изображения.

Ни в сравнении с возможностями жесткой модели Google, ни в сравнении с ее ищущими мечты голливудскими конкурентами, такими как Runway, у Pika есть свой собственный игровой процесс, превосходящий конкурентов.

На самом деле, Pika всегда хорошо справлялась с редактированием и творчеством. Предыдущая серия функций спецэффектов AI Pikaffect взорвалась в Интернете, захлестнув экраны Xiaohongshu и TikTok, в результате чего число пользователей Pika превысило 11 миллионов.

▲ AI пинч Фото: Пика.

▲ИИ разрезает торт. Фото: Пика.

Pika попадает в группу пользователей, у которых высокий спрос на короткие живые видеоролики. Даже если эти видеоролики шаблонны и мимолетны, пока они интересны, люди будут стекаться к ним.

Кто сказал, что победитель получает все? Рынок искусственного интеллекта огромен, и моделирование физического мира, безусловно, является высокой мечтой. Сначала выполнение небольшой цели по созданию интересных коротких видеороликов с искусственным интеллектом может оказаться неуспешным.

Чжан Ченгчен

Он остер, как осенний мороз, и может отвести злые бедствия. Рабочая электронная почта: zhangchengchen@ifanr.com

Электронная почта 8

# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo