Новая модель искусственного интеллекта от Nvidia создает музыку из текстовых и аудиоподсказок

Логотип Нвидиа.
Нвидиа

Nvidia выпустила новую модель генеративного аудио AI, которая способна создавать множество звуков, музыки и даже голосов на основе простых текстовых и звуковых подсказок пользователя.

Модель, получившая название Fugatto (также известная как Foundational Generative Audio Transformer Opus 1), может, например, создавать джинглы и фрагменты песен исключительно на основе текстовых подсказок, добавлять или удалять инструменты и вокал из существующих треков, изменять акцент и эмоции голоса, а также «Даже позволить людям издавать звуки, которые раньше никогда не слышали», — говорится в объявлении в понедельник .

«Мы хотели создать модель, которая понимает и генерирует звук, как это делают люди», — сказал Рафаэль Валле, менеджер по прикладным исследованиям звука в Nvidia. «Fugatto — это наш первый шаг к будущему, в котором многозадачное обучение без присмотра в области синтеза и преобразования звука возникает на основе данных и масштаба модели».

Компания отмечает, что музыкальные продюсеры могут использовать модель искусственного интеллекта для быстрого прототипирования и проверки идей песен в различных музыкальных стилях с различными аранжировками или добавления эффектов и дополнительных слоев к существующим трекам. Эту модель также можно использовать для адаптации и локализации музыки и озвучки существующей рекламной кампании или для корректировки музыки в видеоигре «на лету», когда игрок проходит уровень.

Модель даже способна издавать неслыханные ранее звуки, например, лай труб или мяуканье саксофона. При этом он использует технику ComposableART для объединения инструкций, изученных во время обучения.

«Я хотел позволить пользователям комбинировать атрибуты субъективным или художественным способом, выбирая, насколько сильно они будут акцентировать внимание на каждом из них», — написал в анонсе исследователь Nvidia AI Рохан Бадлани. «Результаты моих тестов часто были неожиданными и заставляли меня чувствовать себя немного художником, хотя я учёный-компьютерщик».

Сама модель Fugatto использует 2,5 миллиарда параметров и обучалась на 32 графических процессорах H100. Подобные аудиоИИ становятся все более распространенными. В апреле Stability AI представила аналогичную систему , которая может генерировать треки продолжительностью до трех минут, а модель Google V2A может генерировать «неограниченное количество саундтреков для любого видеовхода».

YouTube недавно выпустил музыкальный ремикшер с искусственным интеллектом , который генерирует 30-секундный сэмпл на основе входной песни и текстовых подсказок пользователя. Даже OpenAI экспериментирует в этой области, выпустив в апреле инструмент искусственного интеллекта, которому требуется всего 15 секунд сэмпла аудио , чтобы полностью клонировать голос и вокальные образцы пользователя.