Крупное обновление отечественного видеоартефакта AI, поддержка 4К, 60 кадров и эпоха генерации видео со звуком здесь Прикреплена пробная ссылка

8 ноября, 2024 Дядя Влад

В этом году работа по созданию видео с помощью искусственного интеллекта идет полным ходом.

От первоначального времени создания ролика до качества изображения ролика и недавнего внедрения спецэффектов искусственного интеллекта производители отрасли запускали ролики по-разному, но все они имеют общую цель: усердно работать над привлечением новых пользователей и сохранить старых пользователей.

Однако, хотя многие видеомодели на рынке утверждают, что генерируют видео одним щелчком мыши, готовые продукты, похожие на пантомимы, в некоторой степени бесполезны. В частности, у нас неоднократно повышался порог стимуляции для AI-видео, а отсутствие звуковых эффектов подобно забитому гвоздю, все глубже и глубже вонзается в сердца пользователей.

Конечно, дело не в том, что производители не хотят полностью решить эту проблему, они просто ждут возможности накопить больше опыта.

Три месяца назад Zhipu Qingying стал первым общедоступным продуктом для создания видео в Китае и был запущен в приложении Qingyan, которое может генерировать видео с помощью искусственного интеллекта за 30 секунд с помощью всего лишь команды или изображения.

Сегодня, три месяца спустя, Zhipu Qingying снова начала волну крупных обновлений.

Продолжительность 10 с, 4K, 60-кадровое качество изображения сверхвысокой четкости, любой размер, лучшие действия при выполнении задач и физические модели мира… В дополнение к базовым навыкам открытия книги, что еще более важно, в этом году также будет запущен Zhipu Qingying. месяц для создания и сопоставления звуковых эффектов на экране.

Прилагаются конкретные особенности обновления New Qingying:

Качество видео, эстетическое исполнение, рациональность движений и семантическое понимание сложных подсказок Тушенга были значительно улучшены;
Более четкая детализация лица, согласованность движений и имитация физических свойств повышают естественность и реалистичность видео;
Поддерживает создание 10-кадровых, 4K- и 60-кадровых видео сверхвысокой четкости, а также поддерживает генерацию изображений в любом соотношении;
Одна и та же команда/изображение может генерировать 4 видео одновременно, а функция звукового эффекта, соответствующая изображению, будет запущена для общедоступной бета-версии в ближайшее время в этом месяце;

Более того, в то время как люди все еще обсуждают открытый/закрытый исходный код ИИ, Zhipu является одной из немногих отечественных компаний, которые последовательно поддерживают открытый исходный код. Сегодня Zhipu также официально выпустила и открыла исходный код последней версии видеомодели CogVideoX v1.5.

Этот открытый исходный код включает в себя две модели: CogVideoX v1.5-5B и CogVideoX v1.5-5B-I2V. В будущем CogVideoX v1.5 также будет запущен одновременно на Qingying и объединен с недавно выпущенной моделью звуковых эффектов CogSound.

Код: https://github.com/thudm/cogvideo
Модель: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

Официально объявлено, что с этого момента New Qingying будет запущен в приложении Zhipu Qingyan. Говорить особо нечего, просто прикрепите адрес опыта: https://chatglm.cn/video?lang=zh

4K 60 кадров, новое четкое видео вышло на новый уровень

Добрый старик улыбается, и детали его лицевых мышц четко видны без явной пикселизации и размытия.

Изображение огненного тигра также впечатляет. Мало того, что его походка выглядит реалистично, его глаза также раскрывают дикую красоту, а цвет пламени на его теле также демонстрирует богатые уровни цвета и глубину.

Транспортное средство быстро набирает скорость, при смене сцен нет задержек или задержек, даже быстродвижущиеся объекты могут сохранять непрерывность, а также хорошо создают ощущение скорости и напряжения.

Мяуз онлайн превращается в повара и умело жарит современные блюда.

Не обманывайтесь демоверсией. Начало работы — единственный критерий проверки реального эффекта.

Мы также использовали видеофункцию Tusheng, чтобы снять видео полета фонаря Kongming. Фонарь Конгмин был выпущен и медленно поднялся в ночное небо. Камера следовала снизу вверх, и небо окрасилось в темно-синий цвет.

Или мы «воскресили» маленькие желтые цветы, которые были неподвижны, и дул ветерок, и маленькие желтые цветы мягко покачивались на траве.

Тем не менее, «Новый Цинъин» по-прежнему требует определенной степени рисования карт. Это также распространенная проблема со стабильностью отечественных и зарубежных видеомоделей AI. При ежедневном использовании таких продуктов требуется больше терпения.

В нашем тестировании нас больше всего удивила функция генерации звуковых эффектов Qingying.

Для видео звуковые эффекты и изображения всегда дополняют друг друга. Исходя из этого, мы также использовали несколько «мимических» видеороликов с удаленным звуком и позволили ИИ генерировать для них соответствующие звуковые эффекты. Для еды рекомендуется включить кнопку громкости. .

Например, классическая фортепианная дуэль в «Пианисте на море». Вам больше нравится эта версия или оригинал?

Красивый фейерверк, момент, когда они расцветают в ночном небе, в сочетании со звуковыми эффектами искусственного интеллекта, впечатляет ли вас?

Звуки капель дождя разные: некоторые четкие, некоторые глубокие, некоторые быстрые, а некоторые длинные.

Сцена ядерного взрыва огромна, но звук почти без задержки. Он хорошо имитирует звуки реального взрыва, шум окружающей среды и его последствия.

Не волнуйтесь, слушайте внимательно, есть еще «Аватар подводное приключение».

Если шестеренка видео

От беззвучного звука к звуку: AI-видео вступает в эпоху звуковых фильмов

Первые звуковые фильмы были показаны в Париже в 1900 году, и только десятилетие спустя технология, позволяющая синхронизировать звук с изображением, достигла коммерческих стандартов.

Появление звуковых фильмов не только положило конец немому состоянию кино с момента его зарождения, но, что более важно, оно превратило кино из единственного чисто визуального искусства в новую форму искусства, сочетающую в себе аудио и видео.

Актеры фильма говорили, а зрители аплодировали звуковым фильмам.

Два голоса их сердец звучат симфонически, и звуки их сердец резонируют.

Сегодня цикл истории повторяется снова. От «мима» в начале года до сегодняшних звуковых эффектов ИИ, если первые по-прежнему ограничены 0-1, то добавление звуковых эффектов ИИ знаменует собой эпический скачок. 1-Н.

Основываясь на возможностях распознавания видео GLM-4V, модель звуковых эффектов CogSound, новый член семейства Intelligent Spectrum, может точно идентифицировать и понимать семантику и эмоции, стоящие за видео, и на этой основе генерировать соответствующий аудиоконтент.

Например, взрывы, потоки воды, музыкальные инструменты, звуки животных, звуки транспорта и т. д.

В графических повествованиях появление звука является ключевым поворотным моментом. Оно не только позволяет повествованию выйти за рамки видео, основанных на тексте, но и открывает более широкое пространство для воображения с точки зрения концепций и методов.

Однако внедрение ИИ в кино- и телеиндустрию, несомненно, вызывает споры.

В прошлом месяце забастовка голливудских актеров не утихла, и режиссер Кэмерон заявил на саммите, что ИИ изменит определение повествования в фильмах и поможет сценаристам и режиссерам исследовать новые сюжетные линии и методы повествования.

В видеоиндустрии модели звуковых эффектов также имеют широкий спектр сценариев применения. Например, они могут генерировать звуки для крупномасштабных батальных сцен и сцен катастроф в фильмах, что значительно сокращает производственный цикл и снижает затраты на производство.

Но как именно должно выглядеть аудиовизуальное искусство в эпоху ИИ?

Технологический взрыв в истории дал нам некоторые идеи. Если механизация и сборочные операции промышленной революции сделали возможным стандартизированное массовое производство, то с появлением ИИ, изучая большой объем данных и шаблонов, он может имитировать процесс принятия решений человеком и настраивать процесс принятия решений. в соответствии с конкретными потребностями каждого пользователя. Персонализированное обслуживание с учетом потребностей и предпочтений.

Короче говоря, снижая барьеры для использования, ИИ позволяет каждому обычному человеку создавать персонализированные видеоролики, которые ему нравятся.

Жан-Люк Годар, представитель французской «новой волны», также обсудил влияние изменений в кинотехнологиях на киноязык и артистизм:

«Фильмы не просто используют звук и изображения при съемке, но и создают определенный язык в сознании зрителей. Немые фильмы создали больше возможностей посредством видения, а звуковые фильмы изменили этот способ создания».

Возвращаясь к февралю этого года, ожидания людей в отношении видео AI были впервые высказаны Sora, выпущенной OpenAI. К сожалению, до этого момента продукт, похоже, попал в ситуацию «Татхагаты» и еще не был замечен.

И именно в этот период мы очень рады видеть, что отечественные производители даже добились хороших результатов на этом направлении.

Однако, возможно, это всего лишь закуска. Жипу считает, что истинный интеллект должен быть мультимодальным, при этом слух, зрение, осязание и т. д. совместно участвуют в формировании когнитивных способностей человеческого мозга.

Построение мультимодальной матрицы большой модели интеллектуального спектра, включающей текст, изображения, видение и другие модальности, может еще больше улучшить возможности приложений и инструментов больших моделей, а также приближает к конечной цели искусственного интеллекта – AGI.

На данный момент можно сказать, что мы действительно вступили в эпоху звукового кино с искусственным интеллектом.

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo