Приготовьтесь: GIF-файлы, созданные искусственным интеллектом, могут появиться в ближайшее время
В связи с тем, что чат-боты игенераторы преобразования текста в изображения штурмом захватывают Интернет, следующим рубежом ИИ могут стать генераторы преобразования текста в видео.
Nvidia недавно опубликовала исследовательскую работу под названием «Синтез видео высокого разрешения с моделями скрытой диффузии» о своих экспериментах в своей лаборатории искусственного интеллекта в Торонто, в которой подробно описывается, как она использует стабильную диффузию для создания инструмента, который может создавать движущиеся художественные результаты из текстовых подсказок.
Техническая компания продемонстрировала демонстрацию моделей скрытой диффузии (LDM), которые используют текст для создания видеоклипов без большого объема компьютерной обработки, отмечает TechRadar .
Инструмент может генерировать движущиеся изображения в стиле GIF, которые представляют собой видеоролики продолжительностью примерно 4,7 секунды с разрешением 1280 x 2048. Согласно исследованию, он также способен создавать более длинные видеоролики с более низким разрешением 512 x 1024.
Посмотрев демонстрацию технологии, TechRadar сказал, что на данный момент инструмент, вероятно, идеален в качестве генератора текста в GIF. Издание отметило, что оно может легко обрабатывать простые подсказки, такие как штурмовик пылесосит на пляже или плюшевый мишка играет на электрогитаре, высокое разрешение, 4K . Несмотря на это, результат по-прежнему вызывал случайные артефакты и смазывание в GIF-файлах, что характерно для других регулярно используемых инструментов искусственного интеллекта, таких как Midjourney .
Издание считает, что более длинные видеоролики все еще нуждаются в доработке, прежде чем они попадут в прайм-тайм, но полагает, что Nvidia будет работать быстро, чтобы подготовить технологию. Они могут хорошо работать для фондовых библиотек и подобных целей.
Есть и другие компании, экспериментирующие с генераторами текста в видео на основе ИИ. Google продемонстрировал свой генератор Phenaki, который позволяет создавать более длинные подсказки, которые создают 20-секундные клипы. Другой стартап под названием Runway в прошлом месяце анонсировал видеомодель второго поколения, которая также основана на Stable Diffusion. Его демонстрация подсказки о вечернем солнце, выглядывающем из окна нью-йоркского лофта, показывает, как вы можете добавить легкие движущиеся эффекты к неподвижным изображениям.
По данным TechRadar, пользователи также выиграют от добавления ИИ в другие программы, такие как Adobe Firefly и Adobe Premiere Rush.
Некоторые другие компании, такие как Narakeet и Lume5 , позиционируют себя как генераторы преобразования текста в видео. Однако многие из этих инструментов работают больше как презентации PowerPoint, объединяя текст, аудио, изображения и, возможно, некоторые уже созданные видеоклипы с подсказками, а не создавая уникальную работу.