Google наносит ответный удар по запуску OpenAI Sora

17 декабря, 2024 Дядя Влад

В понедельник подразделение Google DeepMind представило модель генерации видео Veo второго поколения, которая может создавать клипы продолжительностью до двух минут и с разрешением, достигающим качества 4K — это в шесть раз длиннее и в четыре раза больше разрешения, чем 20-секундные клипы с разрешением 1080p. Сора может генерировать.

Конечно, это теоретический верхний предел Veo 2. В настоящее время модель доступна только на VideoFX, экспериментальной платформе Google для создания видео, а ее клипы ограничены восемью секундами и разрешением 720p. VideoFX также находится в списке ожидания, поэтому не каждый может войти в систему, чтобы попробовать Veo 2, хотя компания объявила, что будет расширять доступ в ближайшие недели. Представитель Google также отметил, что Veo 2 будет доступен на платформе Vertex AI, как только компания сможет в достаточной степени масштабировать возможности модели.

«В ближайшие месяцы мы продолжим работу на основе отзывов пользователей», — рассказал Эли Коллинз TechCrunch , — «и [мы] постараемся интегрировать обновленные возможности Veo 2 в интересные варианты использования в экосистеме Google… Мы ожидаем, что поделитесь новыми новостями в следующем году».

Сегодня мы анонсируем Veo 2: нашу современную модель создания видео, которая создает реалистичные высококачественные клипы из текстовых или графических подсказок.
Мы также выпускаем улучшенную версию нашей модели преобразования текста в изображение Imagen 3, которую можно использовать в ImageFX через… pic.twitter.com/h6ejHaMUM4
— Google DeepMind (@GoogleDeepMind) 16 декабря 2024 г.

Сообщается, что Veo 2 имеет ряд преимуществ перед своими предшественниками, включая лучшее понимание физики (например, лучшую динамику жидкости и лучшие эффекты освещения/затенения), а также способность генерировать «более четкие» видеоклипы, поскольку генерируемые текстуры и изображения более резкое и менее склонное к размытию при движении. Новая модель также предлагает улучшенные элементы управления камерой, позволяющие пользователю позиционировать объектив виртуальной камеры с большей точностью, чем раньше.

Как отмечает TechCrunch, Veo 2 еще не усовершенствовал процесс генерации видео, хотя, похоже, галлюцинирует гораздо меньше, чем его конкуренты, такие как Sora , Kling , Movie Gen или Gen 3 Alpha . «Последовательность и последовательность — это области для роста», — сказал Коллинз. «Veo может последовательно следовать подсказкам в течение нескольких минут, но [не может] следовать сложным подсказкам в долгосрочной перспективе. Точно так же постоянство характера может стать проблемой. Также есть куда совершенствоваться в создании сложных деталей, быстрых и сложных движений и продолжении расширения границ реализма».

В понедельник Google также объявил об улучшениях Imagen 3 , позволяющих модели создания коммерческих изображений создавать «более яркие и скомпонованные» результаты. Модель, доступная на ImageFX, также будет предлагать дополнительные описательные предложения на основе ключевых слов в приглашении пользователя, при этом каждое ключевое слово порождает раскрывающееся меню связанных терминов.