Короткометражный фильм на уровне кино и телевидения был снят за 10 секунд, и основная часть необычного движения камеры все еще ясна. Эта новая отечественная видеомодель стабильна.

1 октября, 2024 Дядя Влад

Трек Винсента Видео становится все более оживленным. Он обновляется каждые две недели и повторяется каждый месяц. Маск как модель почти слишком занят. Катиться действительно легко. Модель генерации видео Дубао представляет собой недавно разработанную модель диффузии, которая показывает реализм уровня кино и телевидения, а также реалистичные детали для очень динамичных и сложных сцен. Опишите эффект одним предложением: очень сильный, очень взрывной, глазам своим не верю.

24 сентября в Шэньчжэне состоялся инновационный тур Volcano Engine AI Innovation Tour 2024 года, где была представлена новая модель генерации видео, сбросившая сразу две бомбы для всей видеодорожки AI: Doubao Video Generation-PixelDance, Doubao Video Generation-Seaweed Две большие модели.

Поскольку компания является одним из первых крупных производителей базовых моделей в Китае, прошедших регистрацию алгоритма, неудивительно, что она пошла по стопам Vincent Video. Это даже заставляет людей с нетерпением ждать этого: как еще это можно прокатить? Приняв участие в реальных испытаниях этой мощной отечественной модели, мы обнаружили, что ее мощность определенно заключается не только в создании изображений, но также в большей экологии и зрении.

Важные прорывы в семантическом понимании и последовательности, полное освоение языка линз.

«Магия» генеративного видео проистекает из «проклятия».

Другими словами, в основе лежит способность модели к семантическому пониманию. Только точно поняв текстовое содержание подсказки, можно правильно представить ожидаемую картинку — в первую очередь необходимо понимать «понимание прочитанного».

На этот раз APPSO приняла участие во внутреннем тесте и добилась замечательных результатов – опять же очень сильных и взрывных.

▲ подсказка: Котенок в фартуке и перчатках моет посуду в ведре, полном пены. Сверху расположен кран, из которого подается вода.

Каждый элемент, указанный в подсказке, отражен. Никакого «недостающего вопроса» нет. Единственная проблема: он слишком красивый — у моего родного кота не такой высококлассный темперамент.

Забудьте, что котенок может сделать не так? С точки зрения изображения детали пены и потока воды просто потрясающие, а гордое выражение лица кошки также очень яркое.

Маленькая деталь: вода падает на макушку котенка, а затем падает со спины и подбородка. Эта деталь соответствует законам физики и достаточна, чтобы показать мощные способности модели к пониманию. Подобное исполнение можно увидеть и на официальной демонстрации.

▲Официальная демоверсия

Восстановление растрепанных на ветру волос не только отражает развевающиеся волосы, но и направление соответствует ритму движения персонажа, что соответствует физической логике.

Эта возможность высокой точности достигается благодаря пониманию и техническому накоплению видео, созданного Доуинем и Цзяньином. Благодаря собственной разработке моделей кодирования и декодирования скрытого состояния с высокой степенью сжатия и высокой восстанавливаемостью, она строго гарантирует эффективное кодирование модели диффузии. операция.

▲ подсказка: В лесу с густыми деревьями посмотрите на небо. Небо покрыто густыми листьями, и сквозь просветы между листьями светит солнце. Угол съемки вверх, сильный контраст между светом и темнотой

Зеленый тон — очень сложный тон. Если его правильно настроить, он будет выглядеть ретро и свежо, но если настроить неправильно, тон погаснет. Здесь точно восстанавливается эффект диафрагмы, образующийся за счет преломления света через зеленые листья и ветки, близкий к эффекту линзы.

Надо сказать, что после неоднократной доводки и непрерывной итерации бизнес-сценариев, таких как редактирование видео и искусственный интеллект Jimeng, модель генерации видео Doubao действительно обладает возможностями компоновки света и тени профессионального уровня, а также возможностями настройки цвета, поддерживая 3D-анимацию, 2D-анимацию, китайскую живопись, различные стили, такие как черно-белый, импасто и, что более важно, – освоение языка объектива.

Крутые движения камеры, как бы ни менялись движения, главный герой остается стабильным

Важность языка линз невозможно переоценить во много раз. Никто не хочет тратить много времени на создание динамичного PPT.

Однако обычным пользователям нет необходимости посещать курсы обучения «языку объективов»: Doubao Video Generation Model подготовила ряд решений для управления объективом: от масштабирования, объемного звучания, панорамирования до масштабирования, отслеживания цели и других супермультитехнологий. -Lens язык может быть завершен с использованием подсказки для достижения гибкого управления перспективой.
Это выглядит легко, но реализовать его непросто: согласованность — большая проблема.

Модель понимает инструкции, генерирует объект, а затем проектирует изменения и траектории действий объекта в соответствии с требованиями объектива. В этой серии шагов не только лицо объекта должно быть «неизменным», но и сам объект должен быть «неизменным». «переменный» соответственно движениям и углам.

▲Подсказка: Бордер-колли в скафандре бежит по поверхности Луны, подпрыгивает и гонится за летающим диском в воздухе. Лунный свет освещает его мех под косым углом, низкий угол, качество 4k, замедленная съемка.

Когда щенок вскочил, его голова и конечности не были сильно деформированы, он был устойчивым и обнадеживающим.

▲ подсказка: Маск стоял на рисовом поле, наклоняясь, чтобы посадить рис, в соломенной шляпе на голове. Подняв голову, он поднял руку, чтобы поприветствовать камеру.

За те десять секунд, пока он говорил в камеру, выражение лица Маска, руки и позы тела менялись вместе с его движениями, но все это не рухнуло, и серия движений была очень плавной.

При решении этой проблемы «изменений» и «неизменности» последовательность предмета почти полностью гарантирована, а производительность действительно мощная.

Тот же принцип применяется при смене объектива. В официальной демо-версии есть впечатляющий подводный сегмент.

▲Официальная демоверсия

Простое увеличение объектива, что должна выполнить модель: впереди должны быть изысканные детали, затем объект перемещается, открывая новый объект, и, наконец, он останавливается на новом объекте, все большое движение завершается за один раз. идти.

Помимо выдающейся стабильной производительности и потрясающих возможностей перемещения камеры, он, естественно, также поддерживает различные стили, такие как 3D-, 2D-анимация, импасто, комиксы и т. д., а также различные варианты соотношения сторон, предоставляя пользователям чрезвычайно свободный выбор. .

▲Официальная демоверсия

▲ подсказка: Красивый заснеженный город Токио суетится. Камера движется по оживленной городской улице, следя за несколькими людьми, наслаждающимися прекрасной снежной погодой и делающими покупки в близлежащих ларьках. Великолепные лепестки сакуры летят на ветру вместе со снежинками.

▲ подсказка: на ночном перекрестке в Гонконге машины и автобусы быстро проезжают, образуя плавные очереди. Пешеходы ждут светофора. Здания на заднем плане размыты, образуя светлые пятна, низкий ракурс, качество 4к

От «высококлассного» к «простому в реализации»

Хотя модель генерации видео Doubao только что стала доступна пользователям, лежащая в ее основе технология уже давно отточена. Согласно техническому отчету, опубликованному ByteDance Research в ноябре прошлого года, команда Byte объединила инструкции изображения первого и последнего кадра с текстовыми инструкциями. Инструкция последнего кадра оказалась ключевым компонентом в создании сложных сцен или действий.

Кроме того, в то время Байт выбрал авторегрессионный маршрут вместо иерархического метода для достижения высокой стабильности качества изображения. Соображение, лежащее в основе этого, заключается в том, что модель должна гарантировать, что создаваемый контент соответствует ожиданиям пользователей. Только таким образом пользователи будут активно участвовать в процессе генерации и играть роль «директора», чтобы можно было реализовать мощные возможности модели. практическое применение как можно скорее.

По сравнению с аналогичными продуктами (за исключением фьючерсов) модель генерации видео Doubao полностью находится на первом уровне. По сравнению с зарубежными продуктами, такими как Luma и Runway, он лучше понимает китайцев и китайских пользователей и больше подходит для творческого рабочего процесса в китайском Интернете.

▲Официальная демоверсия

При таких превосходных характеристиках выделиться невозможно. Это относится не только к модели генерации видео, но и ко всему семейству больших моделей Doubao: будучи одной из первых крупных моделей в Китае, прошедших регистрацию алгоритма, большая модель Doubao предоставляет услуги предприятиям через Volcano Engine и Volcano Ark.

По состоянию на сентябрь среднесуточное использование токенов языковой модели Doubao превысило 1,3 триллиона, что в десять раз больше, чем при первом выпуске в мае.

Чтобы обеспечить максимальную производительность, Doubao Universal Model Pro по умолчанию поддерживает начальную скорость 800 тыс. операций в минуту. Видно, что это число намного превышает лучший уровень в отрасли и может быть дополнительно расширено в соответствии с фактическими потребностями, помогая крупным предприятиям. для безопасной работы в больших масштабах в производственной среде.

Несмотря на то, что его технические возможности настолько сильны, при сравнении цен на самые мощные версии различных крупных моделей большая модель Doubao более чем на 98% ниже, чем цена в отрасли — порог для использования искусственного интеллекта был ниже, чем когда-либо.

Чем более продвинута технология, тем больше ее необходимо внедрять и интегрировать в повседневную жизнь.

В реальных бизнес-сценариях необходимы хорошие результаты, высокая скорость и простота использования. Взяв в качестве примера электронную коммерцию, мы должны учитывать как маркетинговые узлы, так и эффекты отображения на различных платформах. Необходим гибкий и быстрый метод производства.

Будь то рекламная съемка, короткие видеоролики, живая электронная коммерция и другие сферы, необходимо встроить в существующий производственный процесс простые и удобные в использовании инструменты.

На пресс-конференции 24 числа президент Volcano Engine Тан Дай также продемонстрировал серию крупномасштабных моделей, особенно случаи, которые действительно были реализованы в сценариях коммерческого использования.
Благодаря комплексным услугам для больших моделей Huoshan Engine действительно интегрирует возможности больших моделей Doubao в реальные бизнес-сценарии. С этого года компания Volcano Engine создала Экологический альянс крупных моделей розничной торговли, Экологический альянс крупных моделей автомобилей и Альянс крупных моделей интеллектуальных терминалов, охватывающий широкий спектр предприятий и сценариев.

Более прочные модели, более низкие цены и простота реализации, несомненно, являются важными преимуществами модели погремушек.

«Более сильная модель» Излишне говорить, что крупная модель Doubao может поддерживать использование более одного триллиона токенов каждый день. Благодаря более чем 50 внутренним бизнес-практикам ByteDance и приложениям более 30 отраслевых клиентов растущее количество вызовов охватывает все больше и больше сфер. . Получая больше отзывов от предприятий, это также помогает модели Baoda стать лучше и полнее.

На пресс-конференции Тан Дай сказал: «Стоимость применения больших моделей хорошо решена. Большие модели должны перейти от оптовой цены к объемной производительности, с лучшими возможностями модели и услугами».

«Применение коммерческих сценариев – это то, что модель создания видео Doubao·Video рассматривала с самого начала. Для более эффективного применения требуется прорыв в коммерческой ценности». Тан Дай сказал: «Мы сделали достаточно в различных сценариях. Адаптация – это то, что нужно». позволяет каждому по-настоящему внедрять инновации и ускорять бизнес с помощью модели создания видео beanbao в бизнес-среде».

Энтузиасты могут начать исследовать мир искусственного интеллекта с помощью низкопороговых продуктов C-end. Разработчики могут использовать Volcano Engine для реализации работы ИИ более дешевым, разнообразным и гибким способом, а также предоставлять более широкой базе пользователей новые продукты и контент для дальнейшего изучения.

На последующей сессии вопросов и ответов с журналистами он также поделился, что, поскольку технологии продолжают развиваться и развиваться, когда ИИ сможет полностью решить проблему, разница между toB и toC может быть не такой уж большой.

Возможно, это будет самое зрелищное зрелище в эпоху ИИ: барьеры, которые изначально были недостижимы, рушатся. Независимо от того, есть у вас опыт или нет, будь то для расширения возможностей бизнеса или для собственного развлечения, если вы начнете, вы будете творить чудеса.

# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo