Опыт первого выпуска ИИ учится отправлять красные конверты! Внутренний агент контролирует мобильные телефоны и компьютеры всего одним предложением: я вижу будущее «свободы лова рыбы»

29 ноября, 2024 Дядя Влад

В 2024 году самым популярным ключевым словом в сфере искусственного интеллекта станет не что иное, как «Агент».

От простых GPT OpenAI до использования компьютеров Anthropic, которые могут действовать автономно, до недавнего стартапа по искусственному интеллекту /dev/agents, стоимость которого составляет 500 миллионов долларов США с его операционной системой Agent, производители пытаются найти следующее четкое направление для ИИ.

В Китае в прошлом месяце Zhipu AI также представила свой ответ — AutoGLM.

Если вы достаете телефон, открываете приложение, нажимаете «Поиск», вводите ключевые слова… обычно для выполнения этих операций требуется четыре или пять шагов, но с помощью ИИ эти операции сводятся к одному предложению.

Сегодня Zhipu AI также запустила серию агентских продуктов, охватывающих несколько терминалов в Пекине.

Пользователям нужно только вводить инструкции, и GLM может понимать инструкции, планировать задачи, а затем идентифицировать окна, графику, текст и т. д. в интерфейсе и реализовывать автоматические операции, точно так же, как вступает в эпоху навигации, когда ИИ берет на себя управление оборудованием. .

На Agent OpenDay генеральный директор Zhipu AI Чжан Пэн использовал AutoGLM для создания личных групп и разослал красные конверты WeChat и красные конверты с онлайн-паролями сотням участников. Если у вас есть друзья, которые получили красные конверты, поделитесь своей радостью в комментариях.

AutoGLM: мобильный терминал (временно открыт для Android), может самостоятельно выполнять длительные операции, состоящие из более чем 50 шагов, подходит для сложных операций, таких как сравнение цен, навигация и супервызовы.
GLM-PC: версия для ПК (временно открыта для систем Mac), инструмент повышения производительности, позволяющий освободить руки работников. Мобильные телефоны также могут удаленно управлять компьютерами.
AutoGLM-Web: веб-версия, поддерживающая автономное вождение на десятках веб-сайтов, таких как Baidu Search, Zhihu, Github и т. д.

Самая яркая сноска, вероятно, заключается в том, что от чата до действия ИИ присутствует везде, но и агент тоже повсюду. Другими словами, от «думания» за нас до «делания» за нас, Agent меняет определение интеллектуальных устройств.

Прикреплена ссылка для перехода к опыту:

AutoGLM: https://agent.aminer.cn/
GLM-ПК: https://cogagent.aminer.cn/home
AutoGLM-Web: https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday

ИИ других людей просто болтают, но эти ИИ могут помочь мне ловить рыбу.

ИИ помогает мне ловить рыбу? AutoGLM позволяет мне лежать, совершать суперзвонки и покупать кофе.

В предыдущих статьях мы узнали, как AutoGLM захватывает наши мобильные телефоны.

Полностью автоматически отправляйте сообщения WeChat, просматривайте Taobao… То, что раньше нам приходилось делать самим, теперь покрывается AutoGLM. Более того, этот ИИ-работник сегодня был обновлен и очень хорош в своем деле.

Мы также заранее испытали эти новейшие инструменты искусственного интеллекта.

Наша концепция потребления такова: можно покупать дорогие вещи, но нельзя покупать их дорого.

Например, не так давно Юваль Харари, автор «Краткой истории человечества», опубликовал свою последнюю книгу «За пределами Homo Sapiens». Тогда почему бы мне не позволить ИИ помочь мне просмотреть Pinduoduo и Taobao, чтобы посмотреть, где я могу это сделать? найти их? Хорошая сделка.

Мне достаточно пошевелить ртом, и ИИ поможет мне бежать и сломать ноги. Однако, если присмотреться, небольшой недочет в названии книги все же есть.

Если вам трудно говорить в шумной обстановке, не волнуйтесь.

AutoGLM также оснащен «бесшумным режимом», который позволяет отдавать приказы путем набора текста, а перед выполнением задачи AutoGLM также оставляет пользователю 3-секундное «время сожаления», позволяющее остановить и скорректировать выполнение задачи. задание в любое время.

Есть хорошие новости для охотников за звездами: недавно обновленная система AutoGLM может даже понимать регистрацию приходов и приходов.

Возьмем в качестве примера супервызов Ли Синляна. Мне нужно только ввести свои инструкции в плавающее окно AutoGLM, и ИИ сделает за меня весь процесс, мне нужно только «появиться» при обнаружении конфиденциальной информации. и попрощайтесь с «пропущенной регистрацией» одним щелчком мыши.

Кстати, вы также можете установить быстрые команды для этих повседневных задач и выполнять их одним щелчком мыши.

Не стоит недооценивать эту функцию. Кофе, который вы регулярно заказываете во второй половине дня, можно назвать «инструментом жизнеобеспечения». Вам не нужно настраивать его повторно каждый день. необходимо сохранить инструкцию по заказу кофе, что экономит массу усилий.

Выберите обычный режим и позвольте искусственному интеллекту принимать все решения за вас, открывая слепую коробку с кофе. Однако, когда дело доходит до важных операций, таких как отправка, размещение заказов и оплата, AutoGLM активно вернет вам выбор.

Взаимодействие между приложениями является основным моментом этого обновления.

Apple AI показала нам важность ИИ системного уровня для преодоления стены приложений, и теперь с помощью AutoGLM мы также можем добиться подобных эффектов. Например, я попросил ИИ найти учебник по чесноку. капусту в Сяохуншу, и это удалось.

Новая функция навигации AI также очень полезна. Хотите пойти на Кантонскую башню? Просто вежливо поговорите с AutoGLM, и ИИ четко все организует для вас.

К сожалению, AutoGLM поддерживает только системы Android.

Однако с этого момента Zhipu также выпустит квоту на внутреннее пользовательское тестирование AutoGLM и продолжит оптимизировать функции и взаимодействие с пользователем. Ожидается, что он будет запущен как можно скорее и станет продуктом, который действительно открыт для большинства пользователей C-конца. .

Плагин AutoGLM-Web от Zhipu Qingyan теперь также запустил функцию AutoGLM.

Сообщается, что AutoGLM-Web поддерживает автономное вождение на десятках веб-сайтов, таких как Baidu Search, Weibo, Zhihu и Github.

В официальной демо-версии AutoGLM-Web автоматически выполняет «поиск Mango TV на Baidu, открывает Goodbye Lover, воспроизводит последний эпизод и оставляет комментарии». Вмешательство пользователя на протяжении всего процесса отсутствует.

▲описание изображения. Изображение из: xxx.

От мобильных телефонов до компьютеров, пусть ИИ поработает для меня работником

По сравнению с AutoGLM, GLM-PC обеспечивает более функциональные возможности для сценариев на рабочем месте на стороне компьютера.

GLM-PC в настоящее время предназначен для компьютеров Mac, оснащенных чипами серии M, причем наиболее рекомендуются устройства серий M1 и M3. Введите действие, которое вы хотите выполнить, в диалоговом окне, и GLM-PC оценит инструмент и примет решение о плане действий.

Конечно, при обнаружении конфиденциальных операций GLM-PC автоматически приостанавливает работу и ждет действий пользователя или подтверждения.

Хотите узнать популярный контент на Station B? GLM-PC поможет вам найти первую «необходимую щетку при входе на веб-сайт», используя три, пять и два раза, и сэкономит вам много времени на бесцельную гребу.

Хотите пригласить Чжан Саня на встречу? Оставьте вопрос отправки сообщений WeChat ИИ. Даже если страница заблокирована, ее можно точно позиционировать в поле поиска WeChat.

Он также может помочь вам забронировать встречи Tencent и отправить приглашения на встречи участникам. Рекомендуется после окончания работы собрать этот набор «Читов для операций», чтобы повысить эффективность работы за счет рабочего процесса.

Моя любимая функция как редактора — помогать мне разбираться в новостях об искусственном интеллекте за рубежом. После подачи команды ИИ откроет браузер, введет URL-адрес и получит четкое описание новостей.

Кстати, если вы новичок, только что перешедший с системы Win на Mac, вы будете несколько растеряны из-за изменений в системе.

Теперь GLM-PC — ваша «соломинка для спасения жизни». Будь то настройка режима отображения или другие настройки, оставьте ему все свои требования. Оставьте хлопоты ИИ и оставьте счастье себе. Это правильный способ побеждать в жизни.

GLM-PC также имеет функцию, которую можно назвать «королевской бомбой».

Сначала включите «режим ожидания» в настройках GLM-ПК, а затем войдите в «https://cogagent.aminer.cn/m» с помощью проверочного кода на своем мобильном телефоне. Ваш мобильный телефон может даже удаленно управлять компьютером. .

В частности, вы можете удаленно отправлять командные сообщения на GLM-PC и позволять GLM-PC выполнять компьютерные операции. Каждый раз, когда GLM-PC выполняет какой-либо шаг, он возвращает снимок экрана операции. Если есть конфиденциальная операция, перед началом работы он будет ждать подтверждения пользователя.

Во время демонстрации на месте Чжан Пэн также давал указания когагенту через веб-страницу GLM-PC на своем мобильном телефоне и успешно отправлял файлы через WeChat на компьютер.

Фактически, когда ИИ начинает действительно «работать», а не просто «говорить», это также означает, что приложения ИИ перешли на «приземленную» прагматическую стадию. Можно сказать, что когда ИИ действительно начнет решать повседневные дела, он превратится из игрушки в настоящий инструмент повышения производительности.

Возможно, именно такой должна быть технология искусственного интеллекта.

Время использования телефона

За последние два месяца индустрия мобильных телефонов интенсивно выпустила ряд новых продуктов. Существует тенденция, на которую стоит обратить внимание. Хотя мобильные телефоны с искусственным интеллектом еще не получили широкого признания среди потребителей, ИИ на системном уровне стал основным событием. ОС различных производителей. На самом деле, это тоже тенденция. Это предшественник популяризации Агента.

Будь то Blue Heart V от vivo и «Phone GPT», которые можно использовать для ИИ-заказа на пресс-конференции, Xiaoyi и Intent Framework от Huawei Hongmeng или интеллектуальный агент YOYO от Honor, все они по своей сути такие же, как и агент, выпущенный Жипу сегодня:

Пусть ИИ имитирует человеческий цикл «Планируй-Делай-Проверяй-Действуй» (Планируй-Делай-Проверяй-Действуй), чтобы управлять оборудованием, как люди.

Как отметил на сегодняшней пресс-конференции генеральный директор Zhipu AI Чжан Пэн, текущие возможности агента больше похожи на добавление интеллектуального уровня планирования между пользователями и приложениями для связи всех приложений и даже всех устройств.

Это можно рассматривать как прототип большой модели общей операционной системы LLM-OS. Жипу также называет этот набор взаимодействий агентов конструкцией GLM-OS, которая окажет большое влияние на форму взаимодействия человека с компьютером.

Член-основатель OpenAI и гуру технологий искусственного интеллекта Андрей Карпати также много раз говорил об операционной системе с большой языковой моделью (LLM OS). Он считает, что большая модель — это в некоторой степени новый компьютер и операционная система, которая может соединять различное программное и аппаратное обеспечение. , а также периферийные устройства, состоящие из всей модальной информации, выполняют различные задачи посредством вызовов функций.

В традиционной операционной системе вокруг ЦП необходимо построить множество периферийных устройств, таких как мышь и клавиатура, дисковое хранилище и кэш-память.
В LLM OS сама большая модель является центральным процессором. Периферийные устройства ввода-вывода больше не представляют собой мышь и клавиатуру, поскольку LLM может быть совместим с большим количеством режимов ввода и вывода данных. В то же время внешние инструменты, вызываемые большими моделями, также будут обновлены с традиционного программного обеспечения до инструментов интеллектуального агента.

Среди них межприложенная работа является очень важным звеном, а это означает, что агент может выполнять более сложные автономные и согласованные операции, а также может двигаться к реальной коммерциализации.

В начале года мы предполагали, что большая модель станет новой операционной системой для смартфонов, а естественный пользовательский интерфейс (NUI) постепенно заменит существующий графический интерфейс пользователя (GUI).

Что касается возможности объединения услуг, предоставляемых различными интернет-компаниями, то это может стать самым большим препятствием для реализации такого рода взаимодействия в будущем. Но будь то смартфон или приложение, в конечном итоге это станет поэтапным продуктом в истории развития человечества.

Текущее взаимодействие агентов все еще находится на ранних стадиях. В контексте закона масштабирования, сталкивающегося с узкими местами в отрасли, как агент может стать реальным инструментом повышения производительности и брать на себя большую часть рабочих решений?

Лю Сяо, технический директор AutoGLM, заявил в интервью APPSO, что предварительное обучение обязательно продолжится, но будет новый набор логики для обучения алгоритмов и данных.

Генеральный директор Zhipu AI Чжан Пэн также сообщил APPSO, что команда относительно оптимистично настроена в отношении законов масштабирования и надеется изучить больше возможностей в новой парадигме и экосистеме.

В этом году многие производители неизменно использовали автономное вождение для описания интеллекта терминалов с искусственным интеллектом. OpenAI также делит искусственный интеллект на пять уровней: L1-L5.

В отличие от OpenAI, Чжипу определяет пять этапов разработки большой модели: способность к языку L1, логическая способность L2 (мультимодальная способность), способность L3 использовать инструменты, способность L4 к самообучению и L5 исследование научных законов.

Чжан Пэн считает, что большие модели изначально обладали некоторой способностью человека взаимодействовать с реальным физическим миром. «Агент значительно улучшит способность L3 использовать инструменты и в то же время откроет возможности самообучения L4».

От использования телефона, компьютера, автомобиля до использования всех устройств — мыслительные способности крупных моделей и взаимодействие с агентами постепенно влияют на то, как мы используем интеллектуальные устройства.

Разрешение ИИ отправлять сообщения и лайки WeChat, похоже, сейчас имеет ограниченное практическое значение, но, как и AlphaGo, независимо от того, насколько хорош он в шахматах, он не окажет большого влияния на общество. AlphaFold от Google DeepMind может предсказывать структуру почти всех белков. помощь в лечении и исследовании большого количества заболеваний.

Стоящая за ним смена парадигмы является рычагом обновления человеческого образа жизни. Агент позволяет большой модели перейти от Чата к Действию, и постепенно появляется форма так называемого ИИ-терминала, а не просто изменение названия.

Автор: Ли Чаофань, Мо Чунюй

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo