У искусственного интеллекта Google только что появились уши
Чат-боты с искусственным интеллектом уже способны «видеть» мир через изображения и видео. Но теперь Google анонсировала функции преобразования звука в речь в рамках своего последнего обновления Gemini Pro . В Gemini 1.5 Pro чат-бот теперь может «слышать» аудиофайлы, загруженные в его систему, а затем извлекать текстовую информацию.
Компания разместила эту версию LLM в качестве общедоступной предварительной версии на своей платформе разработки Vertex AI. Это позволит большему количеству корпоративных пользователей поэкспериментировать с этой функцией и расширить ее базу после более частного развертывания в феврале, когда модель была впервые анонсирована. Первоначально это предлагалось только ограниченной группе разработчиков и корпоративных клиентов.
1. Разбор + понимание длинного видео
Я загрузил весь вчерашний конкурс данков НБА и спросил, какой из данков набрал больше всего очков.
Gemini 1.5 невероятно смог найти конкретный идеальный данк 50 и детали, просто посмотрев длинное контекстное видео! pic.twitter.com/01iUfqfiAO
— Роуэн Чунг (@rowancheung) 18 февраля 2024 г.
Подробности об обновлении Google поделилась на своей конференции Cloud Next , которая сейчас проходит в Лас-Вегасе. Назвав Gemini Ultra LLM, на котором работает чат-бот Gemini Advanced, самой мощной моделью семейства Gemini, Google теперь называет Gemini 1.5 Pro своей самой способной генеративной моделью. В компании добавили, что эта версия лучше обучается без дополнительной настройки модели.
Gemini 1.5 Pro является мультимодальным, поскольку он может преобразовывать в текст различные типы аудио, включая телешоу, фильмы, радиопередачи и записи конференц-связи. Он даже многоязычен, поскольку может обрабатывать аудио на нескольких разных языках. LLM также может создавать расшифровки видео; однако, как отмечает TechCrunch, его качество может быть ненадежным.
При первом анонсе Google объяснил, что Gemini 1.5 Pro использует систему токенов для обработки необработанных данных. Миллион токенов соответствует примерно 700 000 слов или 30 000 строк кода. В медиа-форме это равно часу видео или примерно 11 часам аудио.
Было несколько частных предварительных демо-версий Gemini 1.5 Pro, демонстрирующих, как LLM может находить определенные моменты в стенограмме видео. Например, энтузиаст искусственного интеллекта Роуэн Чунг получил ранний доступ и подробно рассказал, как его демо-версия нашла точный кадр спортивного соревнования и резюмировала событие, как видно из твита, прикрепленного выше.
Тем не менее, Google отметил, что другие ранние пользователи, в том числе United Wholesale Mortgage, TBS и Replit, предпочитают варианты использования, более ориентированные на предприятия, такие как андеррайтинг ипотечных кредитов, автоматизация разметки метаданных, а также генерация, объяснение и обновление кода.