«Победа инженерии» заключается не только в самом Манусе, но и в выводе на сцену всей экосистемы интеллектуальных агентов.
С момента своего запуска компания Manus находилась на «американских горках».
От изумления в начале до продвижения на большие высоты, до контуженной критики и рекламы — все произошло всего за одну неделю.
Среди различных голосов мы нашли группу людей, наиболее связанных с Манусом: разработчиков, которые участвуют в работе агентов и вспомогательных объектов и говорят о Манусе в их глазах — не обсуждая маркетинг и споры, а только технический аспект.
Вывод несложный: «Манус», несомненно, отличный продукт. Отказать Манусу на основании "обстрелов" – это необоснованная катастрофа.
В то же время слово «шов» несправедливо. Способности и потенциал агента общего назначения отражаются не только в количестве инструментов, с которыми он связан, но и в понимании самого агента.
Споры вокруг маркетинга и обстрелов указывают на один вопрос: в чем ценность Мануса?
«Первый в мире» родился из ниоткуда
Друзья, которые почти забыли грандиозное событие прошлой недели, вот краткий обзор: поздно вечером 5 марта Манус вышел в Интернет для внутреннего тестирования. На официальном видео было опубликовано несколько замечательных вариантов использования, которые изначально можно было увидеть только в PPT, и все они продемонстрировали уникальные возможности Мануса по пониманию и выполнению задач.
Честно говоря, «Агент (разумный)» не нов, но заявление Мануса о «первом в мире интеллектуальном агенте общего назначения» вызвало беспрецедентную волну дискуссий и выдвинуло «универсальный агент» на первый план.
Поскольку внутреннее тестирование требует подачи заявки на код приглашения, а скорость выдачи низкая, это вызвало спешку его получить — какими бы удивительными ни были варианты использования, люди, которые не смогут их использовать, будут беспокоиться.
Этот механизм кода приглашения случайно выдвинул Мануса на почти странный уровень популярности, и его даже назвали «еще одним моментом DeepSeek».
DeepSeek — модель, а Манус — агент. Это два совершенно разных продукта. Однако в некоторой степени эти два процесса действительно схожи.
DeepSeek создает модели, но не начинает с нуля. Вместо этого он достигает инженерного успеха на основе ряда существующих работ с открытым исходным кодом.
Точно так же Manus на самом деле не первая компания, производящая агенты общего назначения. В 2023 году появился ряд подобных продуктов. Сам Манус также получает помощь от большого количества работ с открытым исходным кодом. Ранее команда создала Монику, интегрированного помощника по искусственному интеллекту, и накопила богатый опыт в разработке агентов. Таким образом, Манус также считается триумфом инженерной мысли.
Что такое инженерная победа?
Этот вопрос должен вернуться к фундаментальному источнику того, что такое «универсальный агент».
Разница между людьми и животными заключается в создании и использовании инструментов. Это утверждение справедливо и для агентов — разница между обычными агентами и агентами общего назначения состоит в том, что последние могут активно вызывать инструменты.
«Многие люди думают, что агент — это своеобразный диалоговый робот. Когда он подключен к базе данных, его называют агентом. На самом деле определение агента всегда заключалось в том, что он должен иметь возможность использовать инструменты и иметь возможность реально действовать».
С точки зрения использования конкретного продукта вызов инструмента может еще больше расширить границы возможностей агента. Цзянь Бай, активный участник сообщества разработчиков агентов, видел возможности Мануса в исполнении: нарезка видео.
«Эффект разрезания — другое дело, но его можно сделать, его можно завершить, и он вас не отвергнет».
Принцип не сложен: действие редактирования в определенной степени может быть реализовано в коде. Или можно вызвать некоторые онлайн-инструменты для завершения редактирования.
Редактирование, выполненное таким образом, конечно, грубое, и готовый продукт не может сравниться с ручным редактированием, но, как сказал Цзянбай, Манус не откажет в этой просьбе, а будет активно искать инструменты для ее выполнения. «В прошлых заявках агент мог порекомендовать вам веб-сайт или инструмент для нарезки видео, но такого сквозного результата не было».
Он считает, что это отражает понимание команды «Манус», занимающей более высокую должность. «Я думаю, что они относятся к коду, включая всю рабочую среду кода, скорее как к инструменту, чем к цели».
Раньше для некоторых подобных проектов конечной целью было предоставление фрагмента кода или настройка виртуальной машины. Понимание Мануса заключается в том, что проектирование виртуальных машин для выполнения кода — это всего лишь метод реализации, и они существуют для достижения определенной цели .
«Я думаю, что у них есть когнитивное преимущество», — сказал Цзяньбай. «Все говорят о том, чтобы относиться к агенту как к человеку, но они действительно тщательно продумали, каким образом агент является субъектом».
Ключевое отличие
Итак, является ли виртуальная машина тем дизайном, который выделяет Manus?
«Виртуальные машины — это не творческий проект», — объяснил Чжэн Цянь, который также работает над агентным продуктом общего назначения.
Компания Чжэн Цяня, Convergence.ai, в январе запустила Proxy, продукт, который также является агентом общего назначения, едва обойдя OpenAI в тесте производительности Webvoyage.
Не так давно Proxy был в списке Product Hunt, и Чжэн Цянь был занят руководством командой разработчиков, которая должна была справиться с внезапным наплывом трафика. Они сталкиваются с зарубежным рынком. Видно, что агенты общего назначения — это агенты, возлагающие большие надежды внутри страны и за рубежом.
«Оператор OpenAI — это виртуальная машина. Манус добавляет выполнение кода в браузер после его использования, а затем помещает его в виртуальную машину для его реализации».
Использование браузера — проект с открытым исходным кодом, имеющий 40 000 звезд на Github. Это эквивалентно тому, чтобы поставить веб-браузер перед «глазами» агента , сочетая большие языковые модели и визуальное распознавание . Пользователям достаточно использовать естественный язык, чтобы позволить агенту выполнять реальные операции с элементами веб-страницы.
Ранний прокси также пробовал использовать путь, аналогичный использованию браузера. «Таким образом, он помогает пользователям выполнять щелчки, перетаскивания и т. д. Все относительно просто и понятно. От пользователя требуется только дать задачу, и он выполняет ее шаг за шагом».
Эта форма относительно линейна и не может справиться с более сложными задачами. Другими словами, когда сложность задачи возрастает и от пользователя требуется давать более подробные инструкции, это становится проблемой для пользователя.
«Наша компания начала свою деятельность относительно рано, и мы больше общались с OpenAI и H Company. Позже, когда вышел OpenAI Оператор, агент сразу стал популярным. Все быстро перешли к новой вещи — оркестратору агентов».
Построение обычного агента можно просто и грубо охарактеризовать как «сшивание». Но чтобы создать универсального агента, это должен быть системный проект.
«Вы можете представить агента как человека. Самая сложная часть — это основная система принятия решений — мозг и нейронная передача. Вторая по сложности часть — это конструкция исполнения, которая эквивалентна человеческим конечностям и терминалам. Что касается функциональных модулей, таких как генерация отчетов, взаимодействие с браузером и выполнение кода, о которых вы только что упомянули, они, по сути, являются возможностями на уровне цепочки инструментов».
Люди не рождаются с возможностью ходить. Младенцы могут только беспорядочно махать руками и ногами, затем они могут ползать, стоять, спотыкаться, учатся ходить и, наконец, учатся точно управлять своими конечностями.
Весь процесс обучения – это также процесс постепенного созревания мозга. Большая часть работы Proxy вращается вокруг этого «мозга». В частности, агент-планировщик отвечает за динамическое планирование.
«Есть шутка о том, что планирование не может предсказать будущее: планирование может быть сделано очень хорошо, но вы не знаете, что произойдет в будущем. То же самое верно, когда оно размещено на агенте. Например, если он просматривает определенный веб-сайт и сталкивается с ситуацией, которую невозможно открыть, например, ревизия или истечение срока действия доменного имени, или прямое отключение и т. д., то что должен делать агент в это время? Для этого требуется динамическое планирование».
▲ Во время фактического тестирования Manus мы столкнулись с проблемами входа на сайт и проверки подлинности.
Типичный сценарий — коды проверки. Proxy и Manus могут решить некоторые простые коды проверки, но слишком сложные коды все равно необходимо вернуть пользователю или их можно пропустить напрямую.
Чжэн Цянь объяснил, что сложность заключается в деталях: «Это все детали, и ситуации очень разнообразны. Как реализовать сложные задачи по планированию и в то же время иметь возможность отправлять обратно информацию — база пользователей огромна, и происходят всякие странные вещи. Как охватить различные сценарии — большая трудность».
Манус не идеален на данном этапе, но это инженерное открытие. «Его главный успех действительно связан с инженерией», — согласен с этим утверждением Уильям. «Он объединяет существующие модели на рынке, хорошо связывает их с инструментами и позволяет пользователям впервые увидеть, каких эффектов может достичь агент, который действительно может вызвать инструмент. Я думаю, что это 100% инженерная победа».
Настоящая победа принадлежит экологии
Манус подобен тому малышу, который учится ходить. Он может вызвать огромные дискуссии не из-за того, как далеко он может ходить или как высоко он может прыгать, а потому, что он показывает достаточный потенциал.
Возможно, это его самый большой вклад: популярность Manus постепенно проявилась в ряде общих приложений агентного типа и даже в инфраструктурных работах.
Последним событием является то, что OpenAI запустил API Responses, который представляет собой новую версию для разработчиков, а именно разработчиков агентов.
В сообществе разработчиков Манус вдохновил множество идей. Цзяньбай работал над проектом, связанным с памятью агентов. Появление Мануса заставило его переосмыслить парадигму, связанную с хранением памяти.
Хранение памяти имеет решающее значение для реальной работы агента. Оно не только влияет на то, сможет ли агент учиться и использовать опыт прошлых задач, но также влияет на то, может ли он сформировать память о привычках использования пользователя и действительно достичь персонализации.
Кроме того, агенты общего назначения теоретически обладают наибольшей степенью свободы и могут связываться и вызывать любой инструмент — при условии, что задержка, стандартизация интерфейса и т. д. достаточно хороши. Это именно та услуга, которую хотят предоставить продукты среднего класса, такие как ACI.
Это, возможно, самая удачная точка Мануса: будучи наиболее нестандартным случаем агентов общего назначения на данном этапе, он открывает пространство для воображения и исследования ряда вспомогательных средств .
«На самом деле, по Манусу мы видим, что модель сейчас намного опережает проект». Уильям считает, что в разработке еще есть много возможностей для исследований. «Мы можем продолжать что-то делать в проекте, чтобы улучшить производительность этого продукта-агента с искусственным интеллектом. Мое личное мнение таково, что текущая инфраструктура агента все еще довольно незрела, включая платформы вызова инструментов, подобные нашей, или такого рода уровень памяти. Есть еще много направлений в разработке, которые можно оптимизировать».
Это также самое большое чувство, которое мы испытываем при общении с сообществом разработчиков: они воодушевлены и хотят попробовать. Возможности, заключенные в слове «универсальный», сегодня более ярки, чем когда-либо .
Вскоре Proxy запустит итеративную версию, основанную на новой идее параллельного агента. Чжэн Цянь наблюдал за отзывами сообщества. Он видел, что многие пользователи используют прокси способами, о которых они никогда не думали, и постоянно открываются новые возможности.
«Конечная цель использования большинства продуктов вряд ли будет той целью, для которой они были первоначально разработаны. Это могут быть пользователи, которые откроют для себя возможности использования, которые мы не обнаружили. Мы также ждем наступления этого момента».
# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo