Как работает распознавание голоса?
Иногда мы обнаруживаем, что разговариваем с нашими цифровыми устройствами чаще, чем другие люди. Цифровые помощники на наших устройствах используют распознавание голоса, чтобы понимать, что мы говорим. Благодаря этому мы можем управлять многими аспектами нашей жизни, просто разговаривая с телефоном или умным динамиком.
Несмотря на то, что распознавание голоса является важной частью нашей жизни, мы обычно не задумываемся о том, что заставляет его работать. Многое происходит за кулисами с распознаванием голоса, поэтому вот подробное описание того, что заставляет его работать.
Что такое распознавание голоса?
Современные устройства обычно поставляются с цифровым помощником – программой, которая использует распознавание голоса для выполнения определенных задач на вашем устройстве. Распознавание голоса – это набор алгоритмов, которые помощники используют для преобразования вашей речи в цифровой сигнал и определения того, что вы говорите. Такие программы, как Microsoft Word, используют распознавание голоса для набора слов.
Первая система распознавания голоса
Первую систему распознавания голоса назвали системой Одри. Название было сокращением от «Автоматическое распознавание цифр». Изобретенная в 1952 году лабораторией Bell Laboratories, Одри умела распознавать числовые цифры. Говорящий называл число, и Одри зажигала одну из 10 соответствующих лампочек.
Каким бы новаторским ни было это изобретение, оно не было принято хорошо. Сама компьютерная система была высотой около шести футов и занимала огромное количество места. Независимо от своего размера, он мог расшифровывать только цифры 0–9. Кроме того, Одри мог использовать только человек с определенным типом голоса, поэтому в основном он управлялся одним человеком.
Несмотря на свои недостатки, Одри стала первым шагом в долгом пути к тому, чтобы сделать распознавание голоса тем, чем оно является сегодня. Вскоре появилась следующая система распознавания голоса, которая могла распознавать последовательности слов.
Распознавание голоса начинается с преобразования звука в цифровой сигнал
Системы распознавания голоса должны пройти определенные этапы, чтобы понять, о чем мы говорим. Когда микрофон вашего устройства улавливает звук, он преобразуется в электрический ток, который направляется к аналого-цифровому преобразователю (АЦП). Как следует из названия, АЦП преобразует электрический ток (AKA, аналоговый сигнал) в цифровой двоичный сигнал.
Когда ток течет к АЦП, он берет образцы тока и расшифровывает его напряжение в определенные моменты времени. Напряжение в данный момент времени называется образцом. Длина каждого отсчета составляет всего несколько тысячных долей секунды. В зависимости от напряжения образца АЦП назначит серию из восьми двоичных цифр (один байт данных).
Аудио обработано для ясности
Чтобы устройство лучше понимало говорящего, звук необходимо обработать для повышения четкости. Иногда устройству ставят задачу расшифровать речь в шумной обстановке; таким образом, на звук накладываются определенные фильтры, помогающие устранить фоновый шум. Для некоторых систем распознавания голоса частоты, которые выше и ниже диапазона человеческого слуха, отфильтровываются.
Система не только избавляется от нежелательных частот; определенные частоты в звуке также подчеркнуты, чтобы компьютер мог лучше распознать голос и отделить его от фонового шума. Некоторые системы распознавания голоса фактически разделяют звук на несколько дискретных частот.
Другие аспекты, такие как скорость и громкость звука, настраиваются для лучшего соответствия эталонным аудиосэмплам, которые система распознавания голоса использует для сравнения. Эти процессы фильтрации и шумоподавления действительно помогают повысить общую точность.
Затем система распознавания голоса начинает создавать слова
Существует два популярных способа анализа речи системами распознавания голоса. Один из них называется скрытой марковской моделью, а второй – через нейронные сети.
Метод скрытой марковской модели.
Скрытая марковская модель – это метод, используемый в большинстве систем распознавания голоса. Важной частью этого процесса является разбиение произносимых слов на их фонемы (наименьший элемент языка). В каждом языке есть конечное количество фонем, поэтому метод скрытой марковской модели работает так хорошо.
В английском языке около 40 фонем. Когда система распознавания голоса идентифицирует одного, она определяет вероятность того, что будет следующим.
Например, если говорящий произносит звук «та», есть определенная вероятность, что следующей фонемой будет «р», чтобы образовалось слово «тап». Также существует вероятность, что следующей фонемой будет «s», но это гораздо менее вероятно. Если следующая фонема действительно похожа на «р», то система может с высокой степенью уверенности предположить, что это слово – «тап».
Метод нейронной сети
Нейронная сеть похожа на цифровой мозг, который учится так же, как и человеческий мозг. Нейронные сети играют важную роль в развитии искусственного интеллекта и глубокого обучения.
Тип нейронной сети, которую использует распознавание голоса, называется рекуррентной нейронной сетью (RNN). Согласно GeeksforGeeks , RNN – это тот, где «выходные данные предыдущего шага используются как входные данные для текущего шага». Это означает, что когда RNN обрабатывает бит данных, она использует эти данные, чтобы влиять на то, что она делает со следующим битом данных – по сути, она учится на собственном опыте.
Чем больше RNN обращается к определенному языку, тем точнее будет распознавание голоса. Если система идентифицирует звук «та» 100 раз, а за ним следует звук «р» в 90 случаях, тогда сеть может в основном узнать, что «р» обычно идет после «та».
Из-за этого, когда система распознавания голоса идентифицирует фонему, она использует накопленные данные, чтобы предсказать, какая из них, вероятно, появится следующей. Поскольку RNN постоянно обучаются, чем больше они используются, тем точнее будет распознавание голоса.
После того, как система распознавания голоса идентифицирует слова (со скрытой моделью Marvok или с RNN), эта информация отправляется процессору. Затем система выполняет поставленную перед ней задачу.
Распознавание голоса стало основным продуктом современных технологий
Распознавание голоса стало огромной частью нашего современного технологического ландшафта. Он был реализован в нескольких отраслях и услугах по всему миру; действительно, многие люди управляют своей жизнью с помощью голосовых помощников. Вы можете найти помощников, таких как Siri, загруженными в ваши часы Apple. То, что было всего лишь мечтой в 1952 году, стало реальностью, и, похоже, это не остановится в ближайшее время.