Я протестировал понимающий мир аватар Gemini Live. Это было шокирующе

14 апреля, 2025 Дядя Влад

Немного нервирует слышать, как ИИ разговаривает устрашающе дружелюбным тоном и просит меня навести порядок на моей рабочей станции. Я этим немного горжусь, но думаю, пора сложить беспорядочно разбросанные гаджеты и навести порядок в проводах.

Моя сестра тоже согласилась бы. Но начать действовать после того, как ИИ «увидит» мой стол, распознает беспорядок и даст совет домохозяйке, — это более широкая картина. Чат-бот Gemini AI от Google теперь может это сделать. И многое другое.

Секретным соусом здесь является недавнее обновление функции под названием Project Astra . Он находился в разработке в течение многих лет и, наконец, начал внедряться в начале этого месяца . Основная идея состоит в том, чтобы обслуживать всевидящий, всеслышащий и явно умный ИИ на вашем телефоне.

Google рекламирует эти сверхспособности под довольно скучным названием: Gemini Live с камерой и совместным доступом к экрану. Разработанный в подразделении DeepMind, компания начала свою разработку как «универсальный ИИ-помощник». Жаль, что окончательное название не такое амбициозное.

Начнем с ситуации с доступом. Эта возможность теперь доступна для пользователей Pixel 9 и Galaxy S25 . Но если у вас есть телефон Android с подпиской Gemini Advanced, вы можете получить доступ к новому набору инструментов.

Кстати, это будет стоить 20 долларов в месяц. Я опробовал его на двух вышеупомянутых телефонах, и теперь он готов к использованию и на моем OnePlus 13 . Самая приятная часть? Вам не нужно проходить через какие-либо технические сложности, чтобы получить к нему доступ.

Все, что вам нужно, — это комбинация кнопок питания и громкости или смахивание по углу экрана, чтобы вызвать Близнецов. Неважно, какое приложение вы используете, вы можете получить доступ к новой камере и функциям совместного использования экрана в виде наложения в каждом уголке ОС.

Осмысление окружающего мира

Я начал с того, что навел камеру на картину и спросил о ней. Gemini Live смогла точно определить это как картину в стиле Мадхубани, расшифровав смелое использование цветов и изображение животных.

Затем он дал мне краткий урок истории и вариаций, которые развивались с годами. Информация была точной, вплоть до самого детального уровня. К счастью, вы также можете выбрать текстовую переписку с Gemini, если вы находитесь в месте, где голосовые разговоры могут быть неудобными.

Что мне больше всего нравится в новой камере и аватаре Gemini Live для совместного использования экрана, так это то, что он не слишком болтлив. Вы можете прервать его в любой момент, что только добавляет разговорам «естественной» привлекательности.

Я пробовал Близнецов в различных сценариях. Я не был к этому готов.

Ответы, которые он дает, обычно краткие, как будто он хочет дать вам возможность (или даже подтолкнуть) задать дополнительный вопрос вместо того, чтобы давать чрезвычайно длинный ответ. Он превосходен по целому ряду тем и визуальных сценариев, но есть несколько подводных камней.

Он пока не может использовать Google Lens, а это означает, что Gemini не может сравнивать изображения, которые он видит на экране вашего телефона, с соответствующими результатами в Интернете. Более того, он не сможет получить доступ к информации в режиме реального времени, если вы попросите Gemini просмотреть последние события по какой-либо теме или личности.

Я расспрашивал его о видах растений, списках ресторанов, сборе данных с досок объявлений и о том, как мне прописали лекарство от недавнего приступа гриппа. Gemini показала себя довольно хорошо, лучше, чем я когда-либо видел в работе чат-бота с искусственным интеллектом.

Разблокируем банк знаний

Затем я подтолкнул Близнецов разобраться в сложном академическом материале. Я положил в кадр камеры книгу по машинному обучению. Gemini Live не только признала это, но и предоставила мне обзор содержания книги и ее основных тем.

С любопытством я начал листать страницы и наткнулся на список глав. ИИ заметил прогресс, прекратил говорить и спросил меня, интересна ли мне какая-либо конкретная глава теперь, когда я просматриваю список тем.

В этот момент я был ошеломлен неожиданностью.

Я попросил его разбить несколько сложных тем, и ИИ проделал достойную работу, даже выйдя за рамки материала на странице и извлекая информацию из своего обширного банка знаний.

Например, когда я спросил его о содержании вступительной страницы основополагающего романа Бхишама Сахни «Тамас», ИИ правильно уловил упоминание о Премии Сахитьи Академии. Затем он упомянул детали, которые даже не были указаны на странице, например, год, когда книга получила престижную литературную награду, и о чем эта книга.

С другой стороны, чтение Gemini Live на языке хинди было ужасным. Дело было не только в плохом акценте, но и в том, что Близнецы неоднократно произносили чистую тарабарщину и не имели слов. Пытаясь читать на урду, персидском и арабском языках, он справлялся значительно лучше, но часто смешивал слова из случайных строк.

При моей первой попытке с поэзией на урду он распознал не только текст на урду, но и дал точное изложение стихотворения. Самой большой проблемой, опять же, было повествование. Услышав англизированную версию урду, мне очень больно было слышать.

Отличается в неожиданных местах

ИИ — фантастический инструмент решения проблем, и существует множество тестов, подтверждающих это. Я проверил его на физических задачах, касающихся термодинамики, электрохимических уравнений и статистических задачах, встречающихся в рукописной тетради. Gemini Live прекрасно справилась с такими задачами.

Он даже преуспел в творческой работе. Моя сестра, модельер, представила один из своих эскизов на камеру и попросила оставить отзыв и внести улучшения. Gemini Live начала с похвалы за дизайн, провела параллели с идеологией дизайна нескольких модных брендов и дала несколько рекомендаций.

Когда меня попросили продолжить, ИИ также посоветовал моей сестре лучшие инструменты для преобразования нарисованных от руки эскизов в цифровые концепции. Вслед за этими словами руководство предоставило полезную информацию о стеке программного обеспечения и о том, где можно найти учебные материалы.

Когда я поместил пару батареек Duracell в поле зрения камеры, она не только точно их распознала, но и указала мне гиперлокальные платформы электронной коммерции, которые могут доставить их мне за считанные минуты.

Сервисы под названием Blinkit и Swiggy Instamart доступны только в Индии и в основном предназначены для городских регионов. Даже в тускло освещенной комнате он смог с первой попытки идентифицировать пару проводных наушников.

Осведомленность о ситуации – его сильная сторона.

По сравнению с вашим обычным чатом Gemini или тем, что вы найдете в разделе обзоров искусственного интеллекта в Google Search, беседы Gemini Live используют более осторожный подход к распространению знаний, особенно если они носят деликатный характер. Я заметил, что такие темы, как рекомендации по питанию и медицинское лечение, рассматриваются со все более осторожным подходом, и пользователей часто подталкивают к поиску подходящего экспертного ресурса.

Несколько знакомых ловушек

Мой главный вывод заключается в том, что преображение Джемини в «Проекте Астра» очень впечатляет. Это взгляд на будущее, которого смогут достичь смартфоны. Благодаря нескольким улучшениям, интеграции и рабочим процессам между приложениями Google Search может показаться устаревшим пережитком. Но на данный момент есть несколько явных недостатков.

Несколько раз я замечал, что система памяти выходит из строя. Когда ИИ попросили идентифицировать фитнес-браслет в поле зрения камеры, он правильно распознал его как Samsung Galaxy Fit 3 . Но когда я задал дополнительный вопрос, он ошибочно воспринял устройство как фитнес-браслет от Huawei.

Он также может откровенно лгать. И вполне уверенно, можно сказать. Например, когда я попросил подвести итог моего обзора носимого устройства, ИИ ответил, что Digital Trends еще не проверял его. На самом деле статья была опубликована неделю назад.

Затем я попросил его просмотреть несколько статей на моей странице автора после того, как я включил совместное использование экрана. Близнецы достойно объясняли истории, но иногда спотыкались о контекстуальном понимании. Например, там неверно упомянуто, что только Intel и AMD могут производить NPU, соответствующие требованиям значка Copilot+ .

В статье, с другой стороны, четко упоминается, что Qualcomm первой соответствует этим критериям, опередив конкурентов. И только в конце прошлого года AMD и Intel смогли, наконец, выйти на новый уровень и достичь базового уровня чипов искусственного интеллекта с помощью нового портфеля процессоров.

В середине разговора о статье снова возникла проблема с памятью. Вместо того, чтобы подвести итог обсуждаемой истории, он вернулся к разговору о первой статье, которую увидел во время совместного использования экрана. Когда я прервал его на середине повествования, Близнецы исправили ошибку.

Еще одна проблема, которую я заметил при повествовании на неанглийских языках, заключается в том, что Gemini Live случайно меняла голос и темп в середине повествования. Это было довольно неприятно, а произношение было абсолютно механическим, сильно отличающимся от человеческих разговорных навыков английского языка.

Борьба машинного зрения также очевидна со стилистическими шрифтами. В нескольких случаях он уверенно выдавал неверную информацию, а когда его просили исправиться, ИИ выражал неспособность найти самую свежую информацию по этой теме. Такие сценарии редки, но ошибки Близнецов никуда не денутся.

Подводя итог, я считаю, что Gemini Live с камерой и совместным использованием экрана — это один из самых больших прорывов, которые ИИ сделал на данный момент. На данный момент это одна из наиболее практичных реализаций генеративного ИИ. Все, что ему нужно, — это немного разнообразия и исправление синдрома «уверенного лжеца».

Сейчас дела определенно идут по правильному пути, и в подавляющем большинстве случаев, но до того, чтобы стать идеальным спутником ИИ в техно-футуристических мечтах, еще осталось несколько важных этапов.