Этот ИИ может подделать ваш голос всего за три секунды

У искусственного интеллекта (ИИ) сейчас наступает момент , и ветер продолжает дуть в его паруса с новостями о том, что Microsoft работает над ИИ, который может имитировать чей-либо голос после короткого трехсекундного образца.

Новый инструмент, получивший название VALL-E, был обучен примерно 60 000 часов голосовых данных на английском языке, что, по словам Microsoft, «в сотни раз больше, чем существующие системы». Используя это знание, его создатели утверждают, что ему нужно лишь небольшое количество голосовых данных, чтобы понять, как воспроизвести голос пользователя.

мужчина говорит в телефон

Что еще более впечатляет, VALL-E может воспроизводить эмоции, вокальные тона и акустическую среду, присутствующие в каждом образце, с чем другие программы голосового ИИ боролись. Это придает ему более реалистичную ауру и приближает его результаты к чему-то, что может сойти за настоящую человеческую речь.

Microsoft заявляет, что по сравнению с другими конкурентами по преобразованию текста в речь (TTS) VALL-E «значительно превосходит современную систему TTS с нулевым выстрелом с точки зрения естественности речи и сходства говорящих». Другими словами, VALL-E звучит гораздо больше как настоящие люди, чем конкурирующие ИИ, которые сталкиваются с аудиовходами, на которых они не обучены.

На GitHub Microsoft создала небольшую библиотеку примеров, созданных с помощью VALL-E. Результаты в основном очень впечатляющие, многие сэмплы воспроизводят мелодию и акцент голосов говорящих. Некоторые примеры менее убедительны, указывая на то, что VALL-E, вероятно, не является законченным продуктом, но в целом результат убедителен.

Огромный потенциал — и риски

Человек, выполняющий видеовызов на устройстве Microsoft Surface под управлением Windows 11.

В документе, посвященном VALL-E , Microsoft объясняет, что VALL-E «может нести потенциальные риски при неправильном использовании модели, например, подделка голосовой идентификации или выдача себя за определенного говорящего». Такой способный инструмент для создания реалистично звучащей речи порождает призрак все более убедительных дипфейков , которые можно использовать для имитации кого угодно, от бывшего романтического партнера до видной международной личности.

Microsoft говорит, что для смягчения этой угрозы «можно построить модель обнаружения, чтобы различать, был ли аудиоклип синтезирован VALL-E». Компания заявляет, что при разработке своей работы также будет использовать собственные принципы искусственного интеллекта . Эти принципы охватывают такие области, как справедливость, безопасность, конфиденциальность и подотчетность.

VALL-E — это лишь последний пример экспериментов Microsoft с ИИ. В последнее время компания работает над интеграцией ChatGPT в Bing , использованием ИИ для подведения итогов собраний Teams и внедрением передовых инструментов в такие приложения, как Outlook, Word и PowerPoint . И, по словам Semafor, Microsoft планирует инвестировать 10 миллиардов долларов в производителя ChatGPT OpenAI , компанию, в которую она уже вложила значительные средства.

Несмотря на очевидные риски, такие инструменты, как VALL-E, могут быть особенно полезны в медицине, например, для помощи людям в восстановлении голоса после аварии. Возможность воспроизвести речь с таким небольшим набором входных данных может быть очень многообещающей в таких ситуациях, если все сделано правильно. Но со всеми деньгами, которые тратятся на ИИ — как Microsoft, так и другими — ясно, что в ближайшее время он не исчезнет.