OpenAI нужно всего 15 секунд звука, чтобы его ИИ смог клонировать голос

1 апреля, 2024 Дядя Влад

В последние годы время прослушивания, необходимое ИИ для клонирования чьего-либо голоса , становится все короче и короче .

Раньше это были минуты, теперь — секунды.

OpenAI, компания, поддерживаемая Microsoft и создающая вирусный чат-бот ChatGPT с генеративным искусственным интеллектом, недавно сообщила, что ее собственная технология клонирования голоса требует всего 15 секунд аудиоматериала для воспроизведения чьего-либо голоса.

В сообщении на своем веб-сайте OpenAI поделилась небольшой предварительной версией модели под названием Voice Engine, которую она разрабатывает с конца 2022 года.

Voice Engine работает, подавая ему как минимум 15 секунд разговорного материала. Затем пользователь может вводить текст для создания того, что OpenAI описывает как «эмоциональную и реалистичную» речь, которая «очень похожа на оригинального говорящего».

OpenAI настаивает на том, что принимает «осторожный и осознанный подход к более широкому выпуску из-за потенциального злоупотребления синтетическим голосом», добавляя, что он хочет «начать диалог об ответственном использовании синтетических голосов и о том, как общество может адаптироваться к этим новым возможности».

В нем добавлено: «На основе этих разговоров и результатов этих мелкомасштабных испытаний мы примем более обоснованное решение о том, стоит ли и как развертывать эту технологию в больших масштабах».

Одним из злоупотреблений, на которые ссылается OpenAI, является мошенничество, которое некоторые преступники уже осуществляют с использованием аналогичной технологии, которая уже некоторое время является общедоступной. Он включает в себя клонирование голоса, а затем звонок другу или родственнику этого человека, чтобы обманом заставить его передать наличные посредством банковского перевода. Существуют также опасения по поводу того, как такая технология может быть использована на предстоящих президентских выборах. Эту проблему высветил недавний громкий инцидент, когда робот-звонок с использованием клона голоса президента Джо Байдена приказал людям не голосовать на январских праймериз в Нью-Гэмпшире.

Еще одна проблема заключается в том, как быстро совершенствующиеся технологии повлияют на средства к существованию актеров озвучивания , которые опасаются, что их все чаще будут просить передать права на свой голос, чтобы ИИ можно было использовать для создания синтетической версии с компенсацией за такой контракт. вероятно, будет намного ниже, чем если бы актера попросили выполнить работу лично.

Рассматривая более позитивное применение этой технологии, OpenAI предполагает, что ее можно использовать для оказания помощи в чтении тем, кто не умеет читать, и детям с использованием естественно звучащих, эмоциональных голосов, «представляющих более широкий диапазон говорящих, чем это возможно с заранее заданными голосами». как мгновенный перевод видео и подкастов, который Spotify уже тестирует .

Его также можно использовать, чтобы помочь пациентам, которые постепенно теряют голос из-за болезни, продолжать общаться, используя звук, похожий на их собственный голос.

На своем веб-сайте OpenAI есть несколько примеров звука, сгенерированного искусственным интеллектом, и эталонного звука, и мы уверены, что вы согласитесь, они довольно необычны.