Этот ИИ клонировал мой голос, используя всего три минуты аудио

5 января, 2023 Дядя Влад

В « Миссия невыполнима 3 » есть сцена, которую вы, возможно, помните. В нем наш герой. Итан Хант (Том Круз). берется за злодея из фильма, держит его под прицелом и заставляет читать вслух причудливую серию предложений.

« Удовольствие от компании Басби — это то, что мне больше всего нравится», — неохотно читает он . — Он приколол гвоздь к стулу мисс Янси, и она назвала его ужасным мальчишкой. В конце месяца он швырял двух котят по всей ширине комнаты… ».

Несмотря на то, что это звучит случайно и неважно, быстро становится ясно, что слова, которые он читает, вовсе не случайны — они специально созданы, чтобы помочь программе клонировать его голос. Как только он заканчивает прохождение, программное обеспечение анализирует звук и мгновенно дает Ханту возможность говорить и звучать точно так же, как плохой парень — последний элемент его почти идеальной маскировки.

Теперь, если вы возьмете эту сцену и вычтете весь шпионаж, оружие и драматическое напряжение, у вас останется довольно убедительный пример того, что я испытал сегодня на выставке CES во время демонстрации My Own Voice , «голосового банкинга» на базе искусственного интеллекта. сервис от французского стартапа под названием Acapela Group.

Смысл существования компании — помогать людям, которые со временем потеряют способность говорить. Обычно это происходит в результате травмы, болезни или таких заболеваний, как БАС, болезнь Гентингтона и рак гортани. Какой бы ни была причина, платформа компании «Мой собственный голос» позволяет человеку синтетически клонировать свой голос и сохранять уникальный тон, тембр и индивидуальность, которые делают его его собственным — то, что обычно теряется в большинстве программ для преобразования текста в речь (вспомните Стивена Хокинг).

Честно говоря, технология клонирования голоса не обязательно является новой или технологически новаторской на данный момент. Такие сервисы существуют уже много лет, и отчасти благодаря появлению дипфейков в настоящее время существуют десятки других компаний, которые могут делать то же самое, что и Acapela Group. Но есть две важные вещи, которые отличают My Own Voice от остальных: скорость и цель.

Мой собственный голос впечатляюще быстр. В отличие от других сервисов, которым часто требуются часы эталонного звука для создания реалистично звучащего клона, ИИ My Own Voice может раскрутить удивительно хороший синтез после прослушивания всего 50 коротких предложений или примерно 3 минут записанного звука. Это в основном то же самое, что сцена из «Миссия невыполнима»; они разработали оптимизированный набор эталонных предложений, которые облегчают их ИИ изучение того, как вы звучите, поэтому вместо того, чтобы вручную записывать каждое мыслимое слово, все, что вам нужно сделать, это произнести несколько простых фраз.

Однако, возможно, более важным, чем скорость программного обеспечения, является его цель. Опять же, эта технология не особенно нова или оригинальна. Было несколько заслуживающих внимания стартапов, которые развернули аналогичную технологию клонирования голоса — например, канадский стартап Lyrebird или лондонская фирма Sonantic. Но оба этих стартапа были быстро приобретены, и их технология клонирования голоса в конечном итоге использовалась для наложения ИИ в фильмах и программном обеспечении для редактирования видео .

Это не значит, что это плохое использование технологии клонирования голоса. Они абсолютно таковы, и они, вероятно, довольно прибыльны, но именно это делает My Own Voice таким крутым. Нечасто встретишь такую мощную технологию, которая не предназначена для развлечения или повышения производительности, а специально разработана для помощи обездоленным людям и буквально дает им возможность высказаться.