Реальный тест спектра интеллекта AutoGLM с возможностью медитировать, мы на шаг ближе к агенту, который умеет думать
Что, если бы существовал ИИ, который мог бы думать, но не мог ничего делать?
Есть также ИИ, которые могут что-то делать, но не могут думать.
Какой из них вы выберете?
Если бы мне пришлось выбирать, я бы сказал: почему бы не оба?
Сегодня на дне открытых дверей Zhongguancun Forum Zhipu компания Zhipu представила AutoGLM Meditation — первый настольный агент с возможностями медитации.
Это первый агент, который существует на рабочем столе компьютера и может сначала подумать, прежде чем что-то сделать, и продолжать думать, делая это.
Задайте ему вопрос, и он разберет его шаг за шагом, затем откроет перед вами одну за другой вкладки браузера (или даже если вы на него не смотрите), начнет искать, находить, записывать, обобщать и анализировать информацию самостоятельно и, наконец, сформирует для вас отчет о результатах, полностью проверенный и глубоко продуманный.
Если вы еще не знаете, что это такое, вот краткое введение:
AutoGLM — это агентский продукт, выпущенный Zhipu, который может управлять экранами мобильных телефонов и браузерами компьютеров. Ключевым моментом является то, что методом реализации является внешний графический интерфейс (GUI), а не внутренний интерфейс приложения (API). Вы можете понять, что AutoGLM учится у людей работать непосредственно с пользовательским интерфейсом посредством «использования рук и глаз». Это существенно отличается от большинства агентских продуктов на основе API, представленных на рынке, с точки зрения взаимодействия.
Способность думать, как следует из названия, позволяет ИИ думать и искать одновременно, автономно решать открытые задачи, не включенные в обучающий корпус, имитировать способность глубоко мыслить и демонстрировать глубокие исследования. Когда ChatGLM получила новый раунд финансирования в начале марта этого года, она объявила, что занимается разработкой Shensi, и переключатель для этой функции также был запущен в крупной модели продукта ChatGLM, разработанной компанией.
В случае с AutoGLM Contemplation, уникальная функция агента GUI Zhipu и способность созерцания, которую люди больше всего ищут и любят, наконец-то достигли интеграции.
Базовая модель AutoGLM Meditation также была официально представлена в этот День открытых дверей:
Базовая модель GLM-4-Air-0414 имеет 32 миллиарда параметров, но ее производительности достаточно для тестирования моделей с более высокими параметрами, таких как DeepSeek-V3, R1 (670B) и Qwen 2.5-Max.
Поскольку параметров меньше, GLM-4-Air0414 может быстро выполнять работу типа агента, обеспечивая основу для улучшения возможностей агента и широкомасштабного внедрения, а также в определенной степени обеспечивая пробный опыт для конечных пользователей.
Компания Zhipu также выпустила модель вывода GLM-Z1-Air, которая в 8 раз быстрее DeepSeek-R1 (активация 37B), при этом стоимость снижена лишь на одну тридцатую от последней.
Это также модель вывода, которая может работать на видеокартах потребительского уровня, что может значительно улучшить работу разработчиков.
Чжипу также обучил новую модель созерцания GLM-Z1-Rumination, основанную на модели GLM-Z1, используя методы саморазвития с подкреплением, которые могут выполнять сетевой поиск в реальном времени, динамически вызывать инструменты, углубленный анализ и самопроверку. Эта модель созерцания позволяет самостоятельно понимать потребности пользователей, постоянно оптимизировать рассуждения, многократно проверять и пересматривать гипотезы в сложных задачах, делая результаты исследований более надежными и практичными.
То есть базовая архитектура модели AutoGLM выглядит следующим образом:
Модели рассуждения и созерцания среднего уровня GLM-Z1-Air, GLM-Z1-Rumination
+
Базовая языковая модель GLM-4-Air-0414.
В сочетании с инструментами AutoGLM на уровне разработки/продукта формируется весь технологический стек AutoGLM Meditation.
Zhipu также планирует официально открыть исходный код всех моделей AutoGLM Meditation 14 апреля.
Ранее Жипу поделился мнением команды о дорожной карте AGI: Если мы используем уровень автономного вождения в качестве аналогии, текущие продукты для крупных моделей в целом приобрели способность к самостоятельному обучению, близкую к L3; в то время как такие способности, как созерцание, размышление и самокритика, находятся на стадии L4.
Следует отметить, что AutoGLM Meditation в настоящее время все еще находится на стадии бета-тестирования. В минувшие выходные компания APPSO подробно использовала этот продукт. Судя по результатам тестирования, действительно есть возможности для улучшения его производительности при решении сложных задач, а также необходимо оптимизировать базовую логику. Однако, поскольку это совершенно новый продукт для крупных модельных агентов, общий эффект уже потрясающий.
Жипу вступил в стадию L4 крупного модельного агента, хотя до двери всего полфута.
В настоящее время функция медитации AutoGLM официально запущена на веб-странице Zhipu Qingyan, на ПК и в мобильном приложении, она бесплатна и открыта в неограниченном количестве.
Прикрепленный опыт
https://autoglm-research.zhipuai.cn/?channel=chatglm#get_started
Когда у агента появится возможность медитировать, научится ли ИИ наконец работать самостоятельно?
В прошлом году Anthropic выпустила «Использование компьютера», который также продемонстрировал достаточные возможности модели и сильные возможности взаимодействия устройств, что позволило, наконец, впервые реализовать идею агента (интеллектуального). В январе этого года крупнейший конкурент Anthropic в США, OpenAI, также интерпретировал концепцию агента с графическим интерфейсом через свой новый продукт «Оператор».
Также в октябре прошлого года Zhipu и Anthropic почти одновременно опубликовали свои последние попытки в агентурном направлении. AutoGLM от Zhipu — первый агент с графическим интерфейсом, запущенный отечественным учреждением.
Сегодняшняя AutoGLM Meditation не только переносит возможности агента по выполнению задач на рабочий стол, но также впервые объединяет возможности работы с инструментами, возможности углубленного исследования, возможности рассуждения и большие возможности прогнозирования.
Этот агент с множеством возможностей очень подходит для задач поиска, уточнения и обобщения информации.
Это все равно, что позволить агенту «водить машину». Раньше вам приходилось давать ему машину, учить его пользоваться рулем, акселератором, тормозом и передачей и даже говорить ему, куда смотреть при движении и движении задним ходом – но теперь агент может «автономно управлять автомобилем».
Пусть создаст «двухнедельный нишевый классический путеводитель по Японии, отличающийся от всех основных маршрутов в Интернете. Он требует абсолютно не посещения самых популярных направлений, а нишевых достопримечательностей, но при этом должен иметь хорошие отзывы».
AutoGLM Shensi более точно разобрала спрос, и логика мышления была относительно ясной: сначала она искала самое простое ключевое слово «путешествие в Японию», чтобы понять основные маршруты и достопримечательности, а затем искала такие ключевые слова, как «японские нишевые туристические достопримечательности» — посредством этих шагов он создал базу знаний в памяти об этом разговоре, то есть, что является мейнстримом, а что нишевым.
Всего я сделал более 20 размышлений по этой задаче. Иногда между несколькими мыслями возникают дублирования, например, поиск по одним и тем же ключевым словам, посещение одних и тех же или похожих ссылок и т. д. Это может быть связано с тем, что информации, полученной за один поиск, недостаточно. Ведь суть созерцания/глубокого поиска состоит в том, чтобы постоянно сомневаться и переворачивать себя, и переходить к следующему шагу только тогда, когда будет достигнута достаточная уверенность.
APPSO также заметила, что слишком сильно полагается на конкретные веб-сайты в качестве источников информации. 90% всех открытых вкладок составили Xiaohongshu и Zhihu (примерно по половине каждой). Напротив, настоящие профессиональные базы данных о путешествиях, такие как Mafengwo, Qyer.com или даже платформы OTA, ни разу не использовались.
Если вы хотите создать настоящий путеводитель по нише, результат от сильной опоры на Xiaohongshu может быть не идеальным. В конце концов, это в популярных заметках Сяохуншу, так что этот аттракцион не должен быть нишевым. Настоящий путешественник по нишевым достопримечательностям, вероятно, не захочет идти в места, где мамы уже были или хотят побывать…
В APPSO заметили, что после глубокого размышления AutoGLM Shen Si выдвинула такие требования, как «разумное планирование маршрута, отсутствие бессмысленных поворотов и поворотов» и «разумный темп путешествия, не слишком спецназ».
Просто фактические результаты не совсем отражали выдвинутые требования: например, в первые несколько дней мы ходили туда и обратно по Внутреннему морю Сето, иногда заходя в два или три места с интервалом более часа в один день, что немного напоминало спецназ; на второй неделе мы полетели на юг из Аомори в Сендай, а затем полетели на север из Сендая в Хоккайдо и пробыли на Хоккайдо всего два дня. Учитывая, что большая часть поездок на дальние расстояния в Японии осуществляется на линиях JR, а тарифы на них дорогие, разумным маршрутом должно быть движение в одном направлении, не поворачивая назад. Если вам не нужно ехать в большой город для пересадки на поезд, вам обычно не следует поворачивать назад.
Но в целом этот путеводитель эффективен: он представляет некоторые направления, которые не учел спрашивающий, а также пытается побывать в местах с совершенно разными временами года, климатом и стилями за одну поездку (вместо того, чтобы ходить туда-сюда по районам Большого Токио, горы Фудзи и Кейсаны).
С этой точки зрения он следует подсказкам и показывает результаты глубокого размышления.
Точно так же, как вам не следует напрямую использовать результаты, полученные с помощью ИИ, это руководство предоставляет путешественникам довольно хорошую основу для оптимизации конкретных пунктов назначения, маршрутов и промежуточных методов транспортировки. Путешествие — это не только сесть в автобус, поспать и выйти фотографироваться. Он также должен принимать во внимание человечество и природу, вникать в местные культурные традиции, исследовать природные ландшафты и, по крайней мере, получать один из самых уникальных местных впечатлений.
Если ваши ожидания не являются неожиданными, ответы, которые дает AutoGLM Musings, вполне удовлетворяют.
Нажмите, чтобы просмотреть ответ Чжипу Цинъянь https://chatglm.cn/share/FQoLp
Учитывая, что самая большая разница между AutoGLM Contemplation и другими большими моделями с глубоким мышлением заключается в возможности управления браузером, APPSO также более глубоко и тщательно протестировала возможности использования браузера.
Пусть он подготовит исследовательский отчет о компаниях, занимающихся облачными вычислениями, в Совете по инновациям в области науки и технологий и посмотрим, каковы будут результаты.
Как и в предыдущем путеводителе, с медитативным «процессом мышления» AutoGLM нет проблем. Как вы можете видеть на картинке ниже, это:
- Точно разобрали условия фильтрации,
- Очевидно, что требуется несколько раундов поиска и итераций,
- Разработал поэтапный план,
- Примерная цель поиска найдена через «Общий поиск».
- Начните работу с пошаговых инструкций
Но процесс использования браузера на самом деле немного сбивает с толку: инструмент AutoGLM снова и снова пытается открыть веб-сайт раскрытия информации, назначенный Комиссией по регулированию ценных бумаг Китая (Juchao Information), и проанализировать информацию на веб-странице. Он успешно нашел инструмент условной фильтрации в базе данных веб-сайта, но зачастую ему не удавалось выполнить фильтрацию должным образом. Либо не удалось правильно выбрать временной диапазон, либо не удалось найти выпадающее меню соответствующего раздела.
APPSO заметила, что время каждого этапа медитации AutoGLM обычно составляет около 3 минут 20 секунд. Однако, если доступ к веб-сайту не будет проходить гладко, «обдумывание» не удастся, поскольку время операции истечет.
Кроме того, исходя из предыдущего опыта APPSO с прошлогодним AutoGLM и другими агентскими продуктами с графическим интерфейсом, когда пользователям необходимо выполнить конфиденциальные операции, такие как вход в систему, ввод платежной информации и нажатие кнопки «Отправить», агент может остановиться и дождаться операций пользователя. В процессе использования AutoGLM для размышления он действительно может дождаться авторизации пользователя, но когда сталкивается с ситуацией «непонимания сайта», то не призывает пользователя взять на себя управление, а просто тупо ждет.
В этой задаче, после двух последовательных раундов неудачного мышления, AutoGLM Meditation начала вступать в циклический процесс переосмысления — такого же, как и предыдущее мышление, которое привело к неудаче, — а затем переосмысления. Это повторялось пять или шесть раз, и в конце концов оно проиграло и направило свою цель на Чжиху.
Когда шаги здесь, задача фактически считается неудачной, поскольку исходная введенная инструкция предназначена для поиска и обобщения указанной информации и объявлений компании. Профессиональная точность данных очень важна, и Zhihu не является надежной платформой для раскрытия информации для листинговых компаний.
После нескольких сложных тестов результаты наконец были раскрыты: хотя три компании — Huawei, Unisplendour и UCloud — связаны с периферийными вычислениями, коды акций всех трех компаний неверны, не говоря уже о том, что две из них не числятся в Совете по инновациям в области науки и технологий.
Способность агента к «автономному вождению» во многом зависит от дорожных условий и положения водителя.
Среди других более простых задач (таких как планирование путешествия, руководство по игре, поиск простой информации и т. д.) возможность использования инструмента AutoGLM в браузере не является большой проблемой.
Однако APPSO обнаружила, что если визуальный дизайн текущего веб-сайта относительно сложен или в нем есть какие-то ловушки, инструмент AutoGLM может легко «споткнуться».
Одним из наиболее ярких примеров являются сайты электронной коммерции. APPSO четко напомнило: «Зайдите на Taobao или JD.com и купите тяжелую японскую футболку». AutoGLM обдумал и сформулировал грандиозный план и четкое разделение труда, но не смог даже войти в горные ворота домашней страницы Taobao и даже не смог найти окно поиска. И кажется, что он полностью заблокирован из-за «невозможно найти окно поиска», и он даже не просматривает другие места на веб-странице – если бы он посмотрел, он обязательно обнаружил бы, что соответствующие продукты уже появились в рекомендациях на главной странице.
Что касается неожиданной ситуации, обнаруженной в ходе этого теста, Чжан Пэн, генеральный директор Zhipu, сказал: «Вы не можете полагаться на общество в запоминании щелчков». AutoGLM все еще находится на стадии бета-тестирования, еще есть много возможностей для эволюции, а текущая скорость обновления также очень высока (APPSO тестирует эффект использования Taobao на официальной версии релиза, и он уже не так спотыкается).
Чжан Пэн отметил, что в соответствии с концепцией модели как услуги или продукта (MaaS) возможности самой модели продукта должны быть такими же высокими и всеобъемлющими, как деревянная бочка. Возможно, визуальные возможности нынешнего инструмента AutoGLM не так хороши, как у человека, и его способности справляться с непредвиденными ситуациями недостаточно. В конечном итоге может оказаться, что его возможностей обобщения недостаточно. Однако улучшение этих возможностей — это не модельная задача, а чисто инженерный уровень — волноваться не стоит.
На базовом уровне модели AutoGLM Contemplation также есть возможности для улучшения.
Друзья, которые часто используют продукты с большими языковыми моделями, знают, что чем конкретнее написаны подсказки и чем четче установлены правила и границы, тем лучше будет эффект и тем больше вероятность получения результатов, соответствующих подсказкам пользователя. То же самое касается агентов, основанных на больших языковых моделях.
Но подсказки нельзя расширять бесконечно, так же, как если бы вы наняли секретаршу для помощи вам в работе, вы не должны каждый раз четко объяснять всю информацию типа «кого искать», «куда», «когда» и «куда идти», чтобы она могла помочь вам беспрепятственно подготовиться к еде.
Модель большого языка очень мощная, но у нее есть и недостатки: она ограничена только текстовыми правилами и не имеет возможности планировать реальные практические задачи, поэтому во время выполнения задачи легко застрять; ему не хватает достаточно длинного пространства контекстной памяти, и задачу невозможно продолжить, если она длится слишком долго; ошибка на предыдущем шаге будет постепенно усиливаться с каждым шагом, пока не произойдет сбой.
AutoGLM также является агентом, основанным на большой языковой модели. Несмотря на то, что над возможностями агента была проделана большая работа, он все равно неизбежно страдает от большой языковой модели. Чем сильнее ваши мыслительные способности, тем легче вам думать слишком много и неправильно.
Из процесса пробного использования APPSO мы видим, что, за исключением некоторых абсолютно базовых понятий (таких как «путешествие», «футболка», «компания»), он не имеет несколько сложных знаний верхнего уровня. Каждый раз, когда пользователь вводит какую-либо команду, он должен сначала открыть браузер, изучить онлайн, уточнить, о чем пользователь имеет в виду, и создать базу знаний в ограниченном пространстве памяти этого разговора, прежде чем переходить к последующим шагам.
Судя по немногим источникам информации, в которых он в настоящее время лучше всего разбирается и на которые он полагается, как только сложность и профессионализм пользовательских задач «увеличивают интенсивность», он действительно немного неохотно находит правдивую, точную и ценную информацию в течение приемлемого для пользователей времени (текущий официальный лимит составляет около 15 минут в общей сложности на задачу), не говоря уже о том, чтобы дать пользователям эффективные результаты (половина тестов APPSO не смогла дать полные результаты).
Но это не такая уж большая проблема.
Есть такая практическая точка зрения, которую можно применить к медитации AutoGLM:
На сегодняшнем уровне агентов рассматривать его как «главную движущую силу» может быть недостаточно. Но это все еще хороший второй пилот.
В AutoGLM Contemplation мы увидели достаточные мыслительные способности и отличные возможности использования браузера (но это действительно зависит от объективных факторов). Очевидно, что Zhipu, как один из немногих игроков с самыми сильными модельными способностями среди нынешних негигантских компаний Китая, определенно будет продолжать совершенствоваться в этих двух способностях, и это будет очень быстро.
С тех пор, как APPSO получила квалификацию тестирования и был официально выпущен AutoGLM Sisi, было обновлено несколько версий, а также улучшены базовые модели и возможности управления через браузер.
Но если нам нужен агент, который действительно может думать и что-то делать, нам, вероятно, нужна более мощная агентская база, чем большая языковая модель нынешней парадигмы.
Агентская структура «Язык + Рассуждение + Созерцание + Действие», запущенная Zhipu, хотя и пока неуклюжая на уровне продукта, кажется очень четким и осуществимым направлением.
Это правда, что для отечественных крупных моделей и агентских продуктов на основе больших моделей может быть более практичным, если текущая цель состоит в том, чтобы «догнать конкурентов из Кремниевой долины». AutoGLM — это «новый вид», который явно отличается от всех аналогичных и подобных продуктов в Китае по логике работы и цели внедрения. Он также приближается к Anthropic и OpenAI.
Для такого крупного инновационного лидера, который не является гигантом, но родился в ведущих университетах Китая, большинство недостатков можно терпеть, но гораздо важнее видеть оригинальность и лидерство в том, что он делает.
# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo