Проверено Сорой! Соревнуйтесь между Келингом и Подиумом, у кого меньше всего ИИ?

13 декабря, 2024 Дядя Влад

После года ожидания Sora наконец вышла, но OpenAI заставила пользователей сети прийти на помощь.

Было решено, что он будет официально открыт для использования, и только счастливчики, ведущие прямую трансляцию и обладающие достаточно быстрыми руками, смогут первыми испытать это. Прождав день, неоднократно обновляясь и снова и снова сталкиваясь с напоминаниями «пожалуйста, зайдите позже», я наконец успешно зарегистрировался.

Однако 20 долларов, которые позволили мне и ChatGPT поговорить обо всем, от поэзии до жизненной философии, Соре хватило только на создание 40 5-секундных видеороликов 480p за месяц. Каждый клик для создания похож на ходьбу по тонкому льду.

После того, как мы, наконец, воспользуемся им, мы, естественно, хотим максимально использовать каждое видео Sora и сравнить его с Runway и Keling. Вывод таков: это полезно и весело, но хвалить его сложно.

Сора, Ранвэй и Кэ Линг — все потерпели неудачу по-своему.

Естественно, есть причина позволить Соре конкурировать с Runway и Keling. Один из них — самый представительный зарубежный видеопродукт с искусственным интеллектом, который дебютировал раньше, а другой — ведущий отечественный игрок, который внезапно появился и покорил пользователей сети по всему миру своей силой.

Правила очень простые, используются те же английские слова-подсказки (для удобства чтения следующие переведены на китайский язык), а генерируемое время составляет 5 секунд. Единственная разница в том, что разрешение Соры установлено на 480p. Другого пути нет, нужно экономно расходовать свои очки.

Сначала воспользуйтесь Wensheng Video, чтобы сравнить реалистичность и текстуру изображений и посмотреть, как выглядят кошки, созданные с помощью видео AI.

Хотя Sora имеет разрешение всего 480p, изображение выглядит высокой четкости, а цветокоррекция прекрасна.

▲Сора генерирует слово-подсказку: телеобъектив с фокусным расстоянием 200 мм запечатлел британскую короткошерстную кошку на балконе с отчетливыми деталями шерсти. Большое горшечное растение на переднем плане слегка размыто, а листья на заднем плане покачиваются на ветру. Изображение имеет зернистость и насыщенность цвета пленки, качество высокой четкости.

Производительность Runway и Keling аналогична, а передний план и фон Keling генерируются наиболее точно. Три кота, три цвета.

▲Создание взлетно-посадочной полосы

▲Поколение духа Чэня

Далее дайте AI-видео «написать» и посмотрите, смогут ли они написать «APPSO».

Движения рук Соры вполне естественны, но строки, которые он пишет, похожи на поедание грибов и имеют свои собственные идеи.

▲Сгенерированное Сорой слово-подсказка: вид рукописного текста «APPSO» сверху на белой бумаге для рисования, черные штрихи, плавные движения письма, естественное движение руки, мягкое освещение, снимок крупным планом

Подиум угадал больше всех, но не полностью. Более того, за исключением последнего штриха, следы букв и движения рук не взаимодействовали друг с другом, и каждое работало само по себе.

▲Создание взлетно-посадочной полосы

Что касается Кэ Лина, он написал ряд искаженных символов, но это было редко. Буквы следовали за движениями его рук.

▲Поколение духа Чэня

Тогда давайте проверим плавность движения. В том же велопробеге выстрелы и траектории движения Соры полностью соответствовали подсказкам, а тени выглядели очень реальными.

▲Сора произнес быстрое слово: горный байкер быстро промчался по непрерывно холмистой грунтовой дороге и взлетел с последней платформы. На боковом снимке запечатлен момент, когда он оказался на самой высокой точке.

Ключевые слова на взлетно-посадочной полосе были верными только наполовину, велосипедист не появился в начале, а в конце ему дали яркий кадр.

▲Создание взлетно-посадочной полосы

Кэ Линг и Runway были полной противоположностью. Они хорошо выступили в первом тайме, но в конце что-то пошло не так. Почему там был лишний человек?

▲Поколение духа Чэня

Пришло время принять вызов и придумать относительно сложное слово-подсказку, которое происходит при переключении камеры.

Цвета на снимке Соры были насыщенными, словно их приглушили, но мужчины словно появлялись из воздуха, и ИИ не поворачивал камеру в сторону мужчин, как требовалось.

▲Сора генерировал быстрое слово: солнечным днем в кафе в стиле Starbucks камера сначала сфокусировалась на улыбающейся молодой китаянке, а затем повернулась к молодому китайцу, который слегка кивнул во время разговора. Они сидели друг напротив друга с двумя чашками кофе на деревянном столе. Естественный свет наполняет пространство, создавая теплую атмосферу.

Взлетно-посадочная полоса сняла это прямо сбоку, восстановив выражения лиц двух людей, но не отразив движение камеры, а с руками мужчины тоже было что-то не так.

▲Создание взлетно-посадочной полосы

Кэ Линг похож на «Подиум», но немного лучше, потому что он более китайский. Однако эти два человека сидели за одним столом, но ни один не смотрел на другого.

▲Поколение духа Чэня

Помимо видеороликов Винсента, видео Tusheng также являются ярким моментом в создании видео, и по сравнению с видеороликами Vincent видеоролики Tusheng более практичны. Многие коммерчески выпускаемые фильмы с искусственным интеллектом по сути представляют собой видеоролики Tusheng. Постарайтесь сначала добиться согласованности на этапе изображения.

Однако, если вы являетесь пользователем $20 Plus, вы не можете загружать фотографии или видео с участием людей на Sora. Следующий лучший вариант — загрузить смайлик кота-волшебника, попросив кота взмахнуть волшебной палочкой и вызвать розы.

Не знаю почему, но у Соры Tusheng видео не работает. Кот вообще не двигается. Только по логотипу в правом нижнем углу видно, что это неподвижная картинка.

▲Сора произнес быстрое слово: Кот взмахнул волшебной палочкой в руке и превратился в красную розу.

Взбежка попросила кота взмахнуть правой лапой волшебной палочкой, и его левая лапа превратилась в розу, что соответствовало требованиям слова-подсказки, но цветок оказался не на том же слое.

▲Создание взлетно-посадочной полосы

Игра Кэ Лин безупречна, а эффект самый естественный. В формате gif это просто еще один смайлик.

▲Поколение духа Чэня

Я попробовал животных, а затем попробовал пустое зеркало. В качестве материала для видео Tusheng я использовал изображение в стиле индустриальной пустоши, которое ранее создал с помощью ИИ.

Результаты, полученные Сорой, сложно оценить. Угол обзора достаточно низкий, но камера не отслеживает сбоку, а переходы кадров резкие. Это называется, я должен быть не в машине, а под машиной.

▲ Сора генерирует подсказки: проезжающие бронемашины, шины, поднимающие пыль и мусор, боковой снимок, перспектива под низким углом, замедленная съемка, текстура уровня фильма.

Взлётно-посадочная полоса создаёт самый внутренний аромат, даже окна машин двигаются.

▲Создание взлетно-посадочной полосы

Кэ Лин напрямую отдалил камеру, что, по сути, не имело ничего общего с подсказкой.

▲Поколение духа Чэня

Вопросов было всего несколько, и ни один из трех ИИ не смог получить полную оценку. Конечно, все вышеперечисленное является примерами и не является универсально репрезентативным. В лучшем случае они могут дать лишь оценочную перспективу.

Если говорить только о Соре, то она хорошо сочетается с реалистичным стилем видео Винсента, с кинематографическим качеством, а движение объекта хорошо следует за подсказками, иногда даже лучше, чем у Келинга и Подиума.

Однако видео Tusheng легко привлекают внимание людей, они могут оставаться неподвижными и не слышать движения камеры, поэтому общая экономическая эффективность невысока.

▲Сора создала, подсказку: короткометражный фильм на 35-мм пленку, снятый в Шанхае в 1990-е годы, качество пленки.

Модель «Beggars Edition», инновационные продукты

Производительность Sora средняя, вероятно, потому, что это «нищая версия» — в отличие от художников, приглашенных OpenAI, сейчас мы можем использовать турбо-версию, которая требует меньше вычислительной мощности и эффект скомпрометирован.

Моделей не хватает, поэтому продукты приходится дорабатывать. Sora немного убедительна – официально анонсирована в феврале и выпущена в декабре. Многие конкурирующие продукты появились в середине, но у Sora все еще есть функции, которых у них нет.

В отличие от ChatGPT, где над миром доминирует одно диалоговое окно, Sora уникальна дизайном своего интерактивного интерфейса и функциями продукта.

Среди них функция раскадровки Sora аналогична первому и последнему кадрам, но более гибкая. Мы можем добавить несколько карточек на временную шкалу. Карты могут содержать подсказки, изображения и видео.

Итак, я написал два абзаца подсказок: 1. Снимок в стиле японской драмы: ученица средней школы прислонилась к перилам крыши, с боковым профилем, мягкий дневной свет падает на ее лицо. 2. Она поворачивает голову лицом к лицу; камеру и тепло улыбается. Освещение подчеркивает выражения лиц.

Полученный эффект соответствует моему воображению, а развевающиеся волосы заставляют людей сильно биться.

▲ Сора генерирует

ИИ пока не способен сделать из каждого режиссёра, но Сора позволяет испытать ощущения от создания раскадровки. Но, повторюсь, модель такая, эффект очень рандомный, но очки Соры не выдерживают вытягивания карты.

Изначально я хотел, чтобы ИИ имитировал эффект игровой компьютерной графики, где главный герой быстро разворачивается и вытаскивает пистолет, но в итоге у меня получился робот с унылым выражением лица.

▲Сора создала

Вы также можете просто поместить изображение в раскадровку, и Сора автоматически сгенерирует подсказки, подсказывающие, как переместить изображение.

Итак, кот-волшебник наконец-то может двигаться. Получается, что недостатки Tusheng Video здесь нужно восполнять. Однако эффект также сложно растянуть, и иногда он производит некоторые ненужные вещи.

▲Сора создала

Кроме того, очень интересна функция Sora Remix (перерисовка). Мы можем редактировать видео, используя естественный язык, изменять элементы в видео и выполнять «вторичное создание».

Вы можете использовать свои собственные видео или заимствовать видео у других участников сообщества Соры.

▲ Изображение предоставлено: сообщество Sora @bpyser1.

Например, мы можем заменить танцующие бумажные фигурки бойз-бэндом и в то же время превратить сцену в комнату для тренировок.

Движения и костюмы бумажных фигурок примерно сохранены, но конечности фигур до сих пор нельзя рассмотреть в деталях.

▲Сора создала

Теперь для большего удовольствия мы можем использовать функцию Blend, чтобы объединить два видео в одно, и Sora автоматически обработает эффекты перехода между видео.

Изначально я думал, что смогу создать плавный MV-клип, ведь эти два видео очень похожи, но AI все равно преподнес мне сюрприз. Начало и конец были нормальными, но сцена в середине была очень хаотичной. ты здесь?

▲Сора создала

Короче говоря, если не гоняться за темпами производства, Sora очень интересна, форма продукта тоже очень интересна, она обеспечивает совершенно новый рабочий процесс, есть инновации и функции относительно полные.

Однако, с текущей точки зрения, есть много возможностей для улучшения эффекта генерации, но количества исследований, предоставленных пользователям, недостаточно, и 20 долларов могут только царапать поверхность. Иногда картинки прекрасны, но если движение не обработано должным образом, оно бесполезно. «Реальности больше не существует» — это пока далекая мечта.

Пожалуйста, наслаждайтесь кошкой, проходящей через стену. Оказывается, в глазах ИИ кошки действительно жидкие.

▲Сора произнес быстрое слово: крупный план черной кошки с кинематографическим ощущением. Кот грациозно прыгает перед красной стеной Запретного города. Изображение представлено в замедленном режиме. ясно виден фон размыт с малой глубиной резкости, и кошка прыгает в самой высокой точке. Золотые глаза смотрят прямо в камеру. Используя мягкий естественный свет, традиционные китайские архитектурные детали стен образуют размытый фон.

Проблема Соры на самом деле является распространенной проблемой среди многих видеопродуктов с искусственным интеллектом. По-настоящему надежного универсального решения не существует. Имитировать реальный мир? Добиться шелковистости и плавности движений? Сохранять характеры последовательными? Да, это возможно, но вероятность есть, и вытягивание карты и последующие этапы необходимы.

Теперь мы наблюдаем эффект генерации, видимый невооруженным глазом, и то, что в совокупности изменили видеоролики ИИ, — это способ создания. Хотя будущее многообещающее, Сора, пожалуйста, сначала обновите свою модель.

Чжан Ченгчен

Он остер, как осенний мороз, и может отвести злые бедствия. Рабочая электронная почта: zhangchengchen@ifanr.com

Электронная почта 8

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo