ChatGPT уже слушает и говорит. Скоро он тоже может увидеть
Согласно коду, обнаруженному в последней бета-версии платформы, расширенный голосовой режим ChatGPT, который позволяет пользователям общаться с чат-ботом в режиме реального времени, вскоре может обрести дар зрения. Хотя OpenAI еще не подтвердил конкретный выпуск новой функции, код в бета-версии ChatGPT v1.2024.317, обнаруженный Android Authority, предполагает, что так называемая «живая камера» может появиться в ближайшее время.
OpenAI впервые продемонстрировала возможности расширенного голосового режима для ChatGPT в мае, когда эта функция была впервые запущена в альфа-версии. Во время демонстрации, опубликованной в то время, система смогла определить, что она смотрит на собаку через камеру телефона, идентифицировать собаку на основе прошлых взаимодействий, распознать собачий мяч и связать отношение собаки к мячу (т. е. игра в апорт).
Эта функция сразу же стала хитом среди альфа-тестеров. Пользователь X Мануэль Сэнсили с большим успехом использовал его, отвечая на устные вопросы о своем новом котенке на основе видеозаписи с камеры.
Пробуем новый расширенный голосовой режим #ChatGPT , который только что был выпущен в альфа-версии. Это похоже на встречу с очень знающим другом, который в данном случае был очень полезен — успокоил нас с нашим новым котенком. Он может отвечать на вопросы в режиме реального времени, а также использовать камеру в качестве входного сигнала! pic.twitter.com/Xx0HCAc4To
— Мануэль Сансили (@ManuVision) 30 июля 2024 г.
Впоследствии в сентябре расширенный голосовой режим был выпущен в бета-версии для подписчиков Plus и Enterprise , хотя и без дополнительных визуальных возможностей. Конечно, это не помешало пользователям сходить с ума при тестировании голосовых ограничений этой функции. По словам компании, Advanced Voice «предлагает более естественные разговоры в реальном времени, позволяет вам прерывать их в любое время, а также улавливает и реагирует на ваши эмоции».
Добавление цифровых глаз, безусловно, выделит Advanced Voice Mode среди основных конкурентов OpenAI, Google и Meta, которые в последние месяцы представили собственные разговорные функции.
Gemini Liveможет говорить более чем на 40 языках , но не может видеть мир вокруг себя (по крайней мере, пока Project Astra не запустится ) — равно как и система естественного голосового взаимодействия Meta, которая дебютировала на мероприятии Connect 2024 в сентябре, не может использовать входы камеры.
OpenAI также объявила сегодня , что режим Advanced Voice теперь доступен и для платных учетных записей ChatGPT Plus на настольных компьютерах. Некоторое время он был доступен исключительно на мобильных устройствах, но теперь к нему можно получить доступ и прямо на вашем ноутбуке или ПК.