Почему Spotify работает над системой распознавания речи?

12 апреля, 2021 Дядя Влад

Spotify, крупнейший в мире сервис потоковой передачи музыки, получил патент на технологию распознавания речи, позволяющую анализировать голос пользователя для определения пола, возраста и окружающей среды. Если рассматривать другие разработки компании, становится ясно, что Spotify, завоевавший наши уши, теперь тоже преследует наши голоса.

Но почему Spotify может захотеть разработать такой тип распознавания речи и для чего он будет использоваться? Давайте углубимся в патент и его последствия.

Патент Spotify на распознавание речи

В 2018 году Spotify подала заявку на патент под названием « Идентификация вкусовых атрибутов по аудиосигналу ». После почти трехлетнего ожидания патент был выдан в январе 2021 года. Как следует из названия, сведения о регистрации, в принципе, системы, которая может брать записанный звук из вашей среды, с речью или без нее, запускать ее через набор алгоритмы и используйте полученный анализ для воспроизведения музыки, подходящей для вашей демографической и текущей среды.

В патенте перечислены некоторые примеры того, как алгоритм может классифицировать данные, включая пол, возраст, акцент, эмоциональное состояние, физическое окружение и количество людей. Однако в документации отмечается, что это не исчерпывающий список, а всего лишь несколько примеров того, как компания может маркировать записанный звук. В дополнение к этим метаданным, патент предполагает, что Spotify также может анализировать вашу речь.

Для чего Spotify может использовать распознавание речи?

В настоящее время нет никаких указаний на то, что Spotify разработал предлагаемую систему, описанную в патенте. Тем не менее, он согласуется с некоторыми другими проектами, над которыми работает служба потоковой передачи музыки. Вскоре после выдачи патента в начале 2021 года Spotify представила функцию голосового управления . Используя слово для пробуждения «Привет, Spotify», вы можете управлять воспроизведением музыки в приложении только с помощью голосовых команд.

Поскольку Spotify – это мобильное приложение, а не голосовой помощник системного уровня, такой как Siri или Google Assistant, существуют некоторые ограничения. Например, приложение должно быть открыто, Spotify должен иметь доступ к вашему микрофону, а дисплей вашего смартфона должен быть разблокирован и включен. Если потоковая служба надеется построить более комплексную систему, ей потребуется доступ на уровне системы или собственное оборудование.

В 2019 году Spotify опробовала аппаратное устройство на базе автомобиля, известное как Car Thing. В сообщении Spotify Newsroom в то время компания заявила, что устройство позволит некоторым пользователям Spotify Premium в США слушать музыку и подкасты в своей машине с помощью голосового управления Car Thing. Он также отметил, что они хотели провести аналогичные тесты, известные как Voice Thing и Home Thing.

Однако мало что было известно о тестах и о планах Spotify по их более широкому распространению. В январе 2021 года, через два дня после получения патента, Spotify подала в Федеральную комиссию по связи новые объявления о модернизированной Car Thing с функцией Bluetooth. Хотя официального подтверждения даты выпуска нет, похоже, компания ждала патента на аудиоанализ, прежде чем приступить к своим планам в отношении оборудования.

Проблема машинного обучения

Хотя системы искусственного интеллекта становятся все более распространенными, они не так умны, как кажется на первый взгляд. Большинство из них используют машинное обучение, когда системе предоставляется набор обучающих данных для обучения. В данном случае это могли быть аудиозаписи, сгруппированные по полу и местоположению. ИИ начинает понимать, как определять различия, которые он видит в обучающих данных, и соответственно сортировать их.

Однако здесь иногда возникают проблемы. У всех разный голос, акцент и тон. В большинстве случаев мы можем снять трубку и определить, знаем ли мы собеседника на другом конце провода, и если да, то кто это. Это также без каких-либо визуальных подсказок, демонстрирующих, насколько уникален каждый голос. Набор обучающих данных никогда не сможет уловить такой уровень детализации и нюансов.

Следовательно, иногда ИИ делает предположения, чтобы вывести результат. Если входящий голос немного ниже, он может обозначить его как мужской голос. Точно так же может быть и обратное, например, когда более высокие тона помечаются как женские.

К сожалению, это не только теоретический риск, поскольку было много громких случаев, когда алгоритмы машинного обучения давали сбой .

Последствия системы Spotify

Когда их подталкивают, большинству людей будет сложно точно определить незнакомый акцент, и это связано с целым жизненным опытом и воспоминаниями, из которых можно извлечь. Система машинного обучения будет знать только то, что было в обучающих данных, оставив ей делать еще больше предположений. Легко понять, как это может привести к потенциально проблемным или даже расистским результатам.

Это тоже не лишено приоритета. В 2015 году инженер-программист Джеки Альсине заметил, что Google Фото опознал его черных друзей как горилл. После негативной реакции в сети Google заявила, что позаботилась об этой деликатной проблеме. Однако в 2018 году WIRED сообщил, что Google не устранил основную проблему категоризации изображений. Вместо этого компания заблокировала из своей системы классификации только термины, относящиеся к определенным приматам, таким как горилла, обезьяна и шимпанзе.

Предлагаемая Spotify система также имеет потенциальные проблемы с конфиденциальностью. Чтобы функционировать так, как ожидает компания, функция распознавания речи должна постоянно отслеживать то, что вы говорите, и среду, в которой вы находитесь. Возможность постоянного включения – это проблема личной конфиденциальности, но она также может привести к агрессивным действиям правоохранительных органов. или правительственное наблюдение.

Некоторые также опасаются функции обнаружения эмоций. Как описано, алгоритм Spotify будет определять ваше эмоциональное состояние и воспроизводить музыку, соответствующую настроению, после того, как ваш звук будет проанализирован. Однако в основе этого лежит предположение, что если вы находитесь в определенном свободном пространстве, вы хотите оставаться там с помощью музыки. Он также открыт для злоупотреблений со стороны технологических компаний.

Например, в 2012 году Facebook провел секретный эксперимент , показав положительный или отрицательный контент в лентах более полумиллиона пользователей, чтобы увидеть, как это повлияло на их эмоциональное состояние. По этим причинам правозащитная организация Access Now отправила в Spotify открытое письмо с просьбой отказаться от системы.

Будущее персонализированной музыки?

Spotify была одной из первых компаний, создавших привлекательный сервис потоковой передачи музыки. Интерфейс и обширный каталог делают его любимым во всем мире. Услуга также прекрасно интегрируется с большинством цифровых помощников и оборудованием для умного дома. За прошедшие годы компания упростила для вас поиск новой музыки или прослушивание любимой музыки с помощью списков воспроизведения, созданных с помощью алгоритмов.

Теоретически постоянное распознавание речи должно продвинуть эту настройку еще на один шаг, чтобы служба потоковой передачи могла пассивно учитывать ваше настроение и среду, чтобы воспроизводить вам лучшую музыку в нужное время. Однако постоянное прослушивание этой технологии имеет далеко идущие последствия для конфиденциальности, которые могут перевесить любое удобство, предлагаемое платформой.