Google делает общедоступным речевой кодек Lyra с низким битрейтом

8 апреля, 2021 Дядя Влад

Google опубликовал исходный код бета-версии аудиокодека Lyra на GitHub, сделав невероятно качественную обработку звука с низким битрейтом доступной для всех разработчиков. Кодек наиболее полезен во встроенных системах и в ситуациях с ограниченной пропускной способностью, когда необходимо сохранить как можно больше данных.

Лира: Почти ничего никогда не звучало так хорошо

Аудиокодек работает по принципу обеспечения максимально естественного звучания речи с минимально возможной скоростью передачи данных. Ему удается создавать почти жуткие уровни воспроизведения звука с битрейтом всего 3 кбит / с. Google использует сжатие Lyra в реальном времени уже в своем приложении Duo , хотя вас не обвинят в том, что вы даже не заметили разницы с обычным звуком с пропускной способностью.

Чтобы продемонстрировать, насколько Lyra лучше других кодеков, Google предоставляет примеры в блоге, сравнивая кодек сжатия, управляемый машинным обучением, с другими альтернативами 3 и 6 кбит / с.

Разница между днем и ночью, и предоставление разработчикам всего мира этих инструментов станет важным фактором повышения качества связи там, где пропускная способность ограничена. Это также отличный мотиватор для разработчиков, стремящихся создавать новые приложения на развивающихся рынках, о чем Google обязательно расскажет на бесплатной виртуальной онлайн-конференции Google I / O в этом году.

Исходный код бета-версии в настоящее время разработан с учетом 64-битных устройств Arm, хотя примеры также будут работать в 64-битных системах x86 Linux. Исходный код полностью задокументирован, хотя он находится в стадии бета-тестирования, а на странице GitHub представлены инструкции по установке и инструкции по сборке Lyra в Linux для 64-битных целей Arm.

Чтобы получить исходный код бета-версии Lyra, перейдите на страницу Lyra GitHub .

Как работает Лира?

Хотя фактический процесс, который использует Lyra, представляет собой невероятно сложную комбинацию моделей машинного обучения, обученных на тысячах часов речевых данных, и оптимизации существующей технологии аудиокодеков, теория довольно проста.

Каждые 40 мс функции берутся из речи и сжимаются до 3 кбит / с. Эти функции представляют собой точки речевой энергии в частотном спектре, наиболее близкие к слуховой речевой реакции человека – то, что нам нужно распознать и понять, когда кто-то говорит.

Ключевой частью того, что делает Lyra особенным, является то, как она использует эту информацию:

Однако традиционные параметрические кодеки, которые просто извлекают из речи критические параметры, которые затем могут использоваться для воссоздания сигнала на принимающей стороне, достигают низких битрейтов, но часто звучат роботизированно и неестественно. Эти недостатки привели к разработке нового поколения высококачественных моделей генерации звука, которые произвели революцию в этой области, поскольку они могут не только различать сигналы, но и генерировать совершенно новые.

После передачи Lyra восстанавливает форму волны, заполняя то, что отсутствует, используя этот процесс, при этом не будучи слишком сложным в вычислительном отношении.

С одной стороны, это чудо техники, которое можно использовать практически везде. С другой стороны, я до сих пор не уверен на 100%, что это не колдовство.