Распознавание голоса – это здорово, но как оно стало таким хорошим?

Технология распознавания голоса имеет богатую историю развития, которая привела ее к тому, чем она является сегодня. Это суть современной жизни, дающая нам возможность выполнять задачи, просто разговаривая с устройством. Итак, как развивалась эта удивительная технология с годами? Давайте взглянем.

1952: Система Одри

Первый шаг в распознавании голоса был сделан в начале 1950-х годов. Bell Laboratories разработала первую машину, которая могла распознавать человеческий голос, в 1952 году и получила название Система Одри. Имя Одри было своего рода сокращением фразы «Автоматическое распознавание цифр». Хотя это было серьезным нововведением, у него были некоторые серьезные ограничения.

Наиболее заметно то, что Одри могла распознавать только числовые цифры 0–9, без слов. Одри давала обратную связь, когда говорящий произносил число, зажигая 1 из 10 лампочек, каждая из которых соответствует цифре.

Хотя он мог понимать числа с точностью 90%, Одри ограничивалась определенным типом голоса. Вот почему единственным человеком, который действительно мог бы его использовать, был Х.К. Дэвис, один из разработчиков. При произнесении числа говорящему необходимо подождать не менее 300 миллисекунд, прежде чем произнести следующее число.

Он был ограничен не только по функциональности, но и по полезности. Не было особого смысла в машине, которая могла бы понимать только числа. Одним из возможных вариантов использования был набор телефонных номеров, но набирать номера вручную было намного быстрее и проще. Хотя у Одри не было изящной жизни, она по-прежнему остается важной вехой в человеческих достижениях.

Связанный: Как использовать голосовой набор в Microsoft Word

1962: Обувная коробка IBM

Спустя десять лет после Одри IBM попробовала разработать систему распознавания голоса. На Всемирной выставке 1962 года IBM продемонстрировала систему распознавания голоса под названием Showbox. Как и Одри, его основная работа заключалась в понимании цифр 0–9, но он также мог понимать шесть слов: плюс, минус, ложь, всего, промежуточный итог и выкл.

Shoebox была математической машиной, которая решала простые арифметические задачи. Что касается обратной связи, то вместо лампочек Shoebox смог распечатать результаты на бумаге. Это сделало его полезным в качестве калькулятора, хотя говорящему все равно придется делать паузу между каждым числом / словом.

1971: Автоматическая идентификация звонков IBM

После Одри и Shoebox, другие лаборатории по всему миру разработали технологию распознавания голоса. Однако это произошло только в 1970-х годах, когда в 1971 году IBM представила на рынке первое в своем роде изобретение. Это называлось системой автоматической идентификации вызовов. Это была первая система распознавания голоса, которая использовалась в телефонной системе.

Инженеры позвонят и будут подключены к компьютеру в Роли, Северная Каролина. Затем вызывающий абонент произносил одно из 5000 слов в своем словаре и получал в качестве ответа «устный» ответ.

Связанный: Как использовать голосовую диктовку на Mac

1976: Гарпия

В начале 1970-х годов Министерство обороны США заинтересовалось распознаванием голоса. DARPA (Агентство перспективных оборонных исследовательских проектов) разработало программу исследования понимания речи (SUR) в 1971 году. Эта программа предоставила финансирование нескольким компаниям и университетам для содействия исследованиям и разработкам в области распознавания голоса.

В 1976 году благодаря SUR Университет Карнеги-Меллона разработал систему Harpy. Это был большой скачок в технологии распознавания голоса. До этого момента системы могли понимать слова и числа, но Гарпия была уникальна тем, что могла понимать полные предложения.

В его словарном запасе всего около 1011 слов, что, согласно публикацииБ. Лоуэрра и Р. Редди , соответствует более чем триллиону различных возможных предложений. В публикации говорится, что Гарпия могла понимать слова с точностью 93,77%.

1980-е: скрытый марковский метод

1980-е были поворотным временем для технологии распознавания голоса, поскольку это десятилетие технологии распознавания голоса, поскольку это было десятилетие, когда мы познакомились со скрытым методом Маркова (HMM). Основная движущая сила HMM – это вероятность .

Когда система регистрирует фонему (наименьший элемент речи), существует определенная вероятность того, что будет следующей. HMM использует эти вероятности, чтобы определить, какая фонема, скорее всего, появится следующей и сформирует наиболее вероятные слова. Большинство систем распознавания голоса сегодня все еще используют HMM для понимания речи.

1990-е годы: распознавание голоса достигает потребительского рынка

С момента появления технологии распознавания голоса компания искала свое место на потребительском рынке. В 1980-х годах IBM продемонстрировала прототип компьютера, способного преобразовывать речь в текст. Однако только в начале 1990-х люди начали видеть подобные приложения у себя дома.

В 1990 году Dragon Systems представила первую программу для преобразования речи в текст. Он назывался Dragon Dictate и изначально был выпущен для Windows. Эта программа стоимостью 9000 долларов была революционной для распространения технологии распознавания голоса в массы, но с одним недостатком. Программное обеспечение использовало дискретный диктант , то есть пользователь должен делать паузу между каждым словом, чтобы программа могла его уловить.

В 1996 году IBM снова внесла свой вклад в отрасль, выпустив Medspeak. Это также была программа диктовки речи в текст, но она не страдала дискретной диктовкой, как Dragon Dictate. Вместо этого эта программа могла диктовать непрерывную речь, что делало ее более убедительным продуктом.

Связанный: Как использовать Google Assistant с наушниками

2010: Девушка по имени Сири

На протяжении 2000-х годов популярность технологии распознавания голоса резко возросла. Он был реализован в большем количестве программного и аппаратного обеспечения, чем когда-либо прежде, и одним из решающих шагов в эволюции распознавания голоса стала Siri, цифровой помощник. В 2010 году компания Siri представила виртуального помощника как приложение для iOS.

В то время Siri представляла собой впечатляющую программу, которая могла диктовать, что говорил говорящий, и давать образованный и остроумный ответ. Эта программа была настолько впечатляющей, что Apple приобрела компанию в том же году и немного изменила Siri, подтолкнув ее к цифровому помощнику, который мы знаем сегодня.

Именно благодаря Apple Siri получила свой знаковый голос (голос Сьюзан Бенетт) и множество новых функций. Он использует обработку естественного языка для управления большинством функций системы.

2010-е: 4 больших цифровых помощника

В настоящее время четыре больших цифровых помощника доминируют в распознавании голоса и дополнительном программном обеспечении.

  • Siri присутствует практически во всех продуктах Apple: iPhone, iPod, iPad и компьютерах семейства Mac.
  • Google Assistant присутствует на большинстве из более чем 3 миллиардов Android-устройств на рынке. Кроме того, пользователи могут использовать команды во многих сервисах Google , таких как Google Home.
  • У Amazon Alexa не так много выделенной платформы, на которой она живет, но она по-прежнему является выдающимся помощником. Его можно загрузить и использовать на устройствах Android и Apple. и даже выбрать ноутбуки Lenovo
  • Bixby – новейшая запись в списке цифровых помощников. Это домашний цифровой помощник Samsung, который присутствует в телефонах и планшетах компании.

Разговорная история

Распознавание голоса прошло долгий путь со времен Одри. Он добился больших успехов во многих областях; например, по данным Clear Bridge Mobile , во время пандемии в 2020 году медицинская сфера извлекла выгоду из голосовых чат-ботов. технологии нашего времени.