Всего за 15 минут iPhone может «скопировать» ваш голос

6 июня, 2023 Дядя Влад

«Механический электронный звук» Стивена Хокинга может быть одним из самых узнаваемых звуков в мире.

Но это был не собственный голос Хокинга.

В то время, когда Хокинг потерял способность говорить из-за БАС, технологий было недостаточно, чтобы позволить ему генерировать собственный голос. На самом деле, очень немногие люди имеют доступ к синтезатору речи.

Сегодня, хотя у пациентов с БАС больше возможностей для синтеза речи, общий порог стоимости и времени все еще не низок, а популярность ограничена.

Недавно Apple анонсировала новую безбарьерную функцию Personal Voice (еще не онлайн), которая не только позволяет пользователям бесплатно «создавать резервные копии» своих голосов, но и делает интересную попытку безопасного применения технологии искусственного интеллекта.

Всего 15 минут «настройки» могут сгенерировать ваш голос

▲ Изображение от Fastcompany

В эпоху, когда генеративный ИИ может имитировать все, использование ИИ для имитации голоса человека не кажется чем-то новым, это просто угроза безопасности.

Что мне больше всего интересно, так это то, как Apple может безопасно и эффективно реализовать функцию Personal Voice.

Согласно сообщениям, пользователям iPhone, iPad и Mac нужно записать только 15 минут звука в соответствии с подсказками, и Apple будет генерировать тот же голос, что и пользователь, на основе технологии машинного обучения на стороне устройства.

Напротив, компаниям, которые предоставляют профессиональные услуги синтеза речи для афазических групп, может потребоваться использование профессионального оборудования для записи нескольких часов речевого материала, а цена может начинаться с сотен долларов.

Еще одна новая безбарьерная функция, Live Speech, позволяет пользователям вводить текст для создания голосового контента при совершении телефонного звонка, FaceTime или разговоре лицом к лицу с другими, предоставляя еще один способ для пользователей, страдающих афазией или неудобных для речи.

Сочетая две функции Personal Voice и Live Speech, пользователи с афазией могут общаться с другими, используя сгенерированный голос, близкий к их оригинальному голосу.

Пользоваться удобно, но как запретить кому-то генерировать чужие голоса, используя голосовые материалы, подобранные из интернета?

Рандомизация материала.

В процессе записи 15-минутного голосового материала Apple будет случайным образом генерировать контент, который должен быть прочитан пользователем, что снижает вероятность того, что другие угадают материал.

Физический дистанционный барьер.

В процессе записи пользователю необходимо завершить запись на определенном расстоянии 6–10 дюймов (примерно 15–25 см) от устройства.

В процессе генерации все данные будут заполняться локально на устройстве с помощью Apple Neural Engine (Neural Engine) без загрузки в облако для обработки.

После синтеза речи, если стороннее приложение хочет использовать Personal Voice, оно должно получить явное разрешение от пользователя.

Даже если стороннее приложение авторизовано для использования, Apple применяет дополнительную фоновую защиту, чтобы гарантировать, что стороннее приложение не сможет получить Personal Voice и голосовой материал, ранее записанный пользователем.

Если вы являетесь пользователем «семейной корзины» Apple, после создания собственного персонального голоса вы также можете синхронизировать его с различными устройствами через iCloud и зашифровать его сквозным способом.

Только когда теряешь собственный голос, понимаешь, как это важно

Люди — эмоциональные существа, а звук — мощный эмоциональный триггер.

Исследования показали, что, когда человек слышит голос матери, в организме вырабатывается уровень окситоцина, аналогичный тому, который вырабатывается при объятиях матери. В другом исследовании отмечается, что способность слышать собственный голос повышает самомотивацию человека.

Это звучит немного абстрактно.

Но когда мы теряем его, важность становится очевидной.

В марте 2021 года у Рут Брантон был диагностирован БАС. На Рождество того года она потеряла дар речи.

Около 25 процентов людей с БАС имеют бульбарную форму БАС, которая проявляется прежде всего в затруднениях с речью или глотанием. Речь таких больных постепенно становится невнятной, гнусавой и даже афазичной.

Действия Брантона были очень решительны: после постановки диагноза он сразу же нашел компанию, занимающуюся генерацией речи.

Потребовался месяц, чтобы вернуться туда и обратно и записать корпус из более чем 3000 предложений, но окончательный результат не был идеальным.

Эта компания использует технику под названием «отбор единиц».

Говоря простым и грубым языком, речь идет о создании речи путем «склейки», разделения корпуса на большое количество небольших речевых единиц, а затем сшивания элементов вместе по мере необходимости.

▲Согласно технологии выбора единиц, слово «Боб» можно разделить на разные фонетические элементы, изображенные в «Вашингтон пост».

Речь, генерируемая этой технологией, будет отчетливо слышна, но она будет немного электронной и звучать неестественно.

В результате корпус, записанный Брантоном, объединился с голосом по имени «Хезер» от Microsoft, который не только не был похож на его собственный, но даже заставил британца «говорить» с американским акцентом.

▲ Настоящий голос Брантона

▲ Голос синтезированной версии Брантона

Попав в ловушку этого голоса, Брантон «будет говорить только тогда, когда это необходимо, а не потому, что он хочет говорить».

Кокетливая болтовня с мужем исчезла, и Брантон стала менее склонна к участию в групповых беседах.

Даже сказать «я люблю тебя» голосом, который не похож на твой собственный, кажется, что это потеряло смысл.

Шесть месяцев спустя Брантон и ее муж вернули исходный записанный голосовой материал, нашли другую компанию и использовали технологию искусственного интеллекта, чтобы синтезировать голос, более похожий на ее собственный:

Это может звучать глупо, но возвращение голоса придало мне больше уверенности.

Джон М. Костелло, руководитель проекта «Расширенная коммуникация» в Бостонской детской больнице, заметил, что пациенты, использующие более реалистичную речь, по-видимому, способны формировать более глубокие связи с близкими.

На Рождество 2022 года Брантон, «восстановивший новый голос», также записал праздничное послание голосом.

▲ Рут считает, что новый синтетический голос больше похож на него самого

Однако сразу после Рождества Брантон получил новую корону и окончательно скончался в феврале этого года.

В ту ночь, когда она ушла, ее муж Дэвид всю ночь держал ее за руку:

У нас есть два года, чтобы попрощаться.
Мы договорились, мы будем говорить все, что хотим.

Трудно представить, если бы Брантон не превратилась в голос, более похожий на ее собственный, смогла бы она свободно сказать все, что хотела.

Безбарьерное мышление вдохновляет, ИИ повышает продуктивность

Я всегда считал, что безбарьерный дизайн извлекает на самом деле творческие ресурсы, созданные человеческим разнообразием.

Мы идем к людям, у которых жизненный опыт полностью отличается от нашего, слушаем истории и опыт, о которых меньше рассказывают, и создаем новый образ жизни, который мы никогда раньше не представляли, но который дружелюбен к большему количеству людей.

Персональный голос может позволить пациентам с БАС с афазией восстановить свой голос; он также может помочь мне использовать свой собственный голос, чтобы разговаривать с другими людьми после того, как я испытал «голос лезвия»; даже мне трудно не представить, должен ли я использовать этот Сохраните свой «запасной» голос для близких, чтобы однажды не умереть внезапно.

И технология ИИ призвана реализовать эту творческую продуктивность.

Как сказал ранее редактор Ду , хотя Apple не догоняет волнение генеративного ИИ, Apple всегда использовала ИИ для улучшения взаимодействия с пользователем, повышения эффективности и защиты конфиденциальности.

Повышение эффективности заключается в улучшении алгоритмов и моделей машинного обучения, выполняемых локально.

В дополнение к Personal Voice, еще одна функция специальных возможностей, представленная Apple на этот раз, Point and Speak, также использует технологию машинного обучения на стороне локального устройства.

В будущем слабовидящие пользователи смогут своими пальцами превратить iPhone в «точечный считыватель» в усилителе, который поставляется вместе с iPhone, в сочетании с функциями «Укажи и говори» и комментария — куда щелкнуть, пусть iPhone прочитает текст за вас.

Прошлогодняя функция «обнаружения дверей» работает аналогичным образом, позволяя машинному обучению на стороне устройства помогать слабовидящим пользователям идентифицировать дверь и читать информацию на двери и окружающих знаках.

Что касается конфиденциальности, по словам Джобса, «если вам нужны их (пользователей) данные, спрашивайте их (пользователей). Каждый раз».

Это также особенно важно с точки зрения дизайна доступности – потому что происхождение этих функциональных дизайнов состоит в том, чтобы служить людям, которые игнорируются так называемым «традиционным дизайном», часто являются более уязвимыми группами, поэтому еще более необходимо обеспечить, чтобы конфиденциальность этих пользователей не нарушается.

В этом контексте мы также можем начать больше дискуссий о правах на применение данных и прозрачности.

Когда Apple на этот раз создала Personal Voice, она сотрудничала с Team Gleason Foundation, некоммерческой организацией, которая помогает пациентам с БАС.

▲ Блэр Кейси, генеральный директор Team Gleason Foundation (справа)

Генеральный директор агентства Блэр Кейси настаивает на том, чтобы компании, занимающиеся созданием голоса, установили набор стандартных настроек записывающего материала, позволяя пользователям напрямую записывать эту часть материала и испытывать голосовые эффекты, созданные различными компаниями, вместо «слепых ставок», как это сейчас».

В то же время Кейси также выступает за то, чтобы компании, генерирующие речь, предоставляли пользователям записанные данные речевого материала (поскольку многие пользователи могут впасть в афазию после записи), чтобы они не захотели использовать эти данные в других технологиях в будущем:

Разве вы не хотели бы попробовать, если бы появились более совершенные технологии?
Если вы не можете вернуть свой голосовой материал, вы не можете его попробовать.

ИИ может быть величайшей производительностью нашего времени.

Однако, как использовать эту силу, возможно, безбарьерный дизайн, ориентированный на людей, может дать ей много указаний.

#Добро пожаловать в официальный публичный аккаунт Айфанер в WeChat: Айфанер (идентификатор WeChat: ifanr), в ближайшее время вам будет представлен более интересный контент.

Ай Фанер | Оригинальная ссылка · Просмотреть комментарии · Sina Weibo