Фактический тест Мануса: я использовал его, чтобы сгенерировать 10 кодов приглашения… весело, но вылетело

Нет необходимости подробно останавливаться на том , насколько шокирующим является «Манус», вышедший сегодня утром : высокая степень способности к независимому мышлению, мощная способность решать сложные задачи и надежные результаты доставки.

По сравнению с чисто диалоговыми продуктами искусственного интеллекта, Манус меньше говорит и может делать больше, чем просто думать. По сравнению с традиционными виртуальными помощниками, Манус обладает более высокими возможностями декомпозиции, планирования и решения проблем (что отражается на возможностях использования компьютера и программирования).

Конкретные детали в настоящее время все еще очень ограничены, но мы понимаем и догадываемся на основе общедоступной информации, что за Манусом стоят разные агенты, каждый из которых выполняет одну задачу, а синхронизация и передача хода выполнения задач агента выполняются через API. Как продукт, «Манус» представляет собой смесь множества моделей и множества независимых агентов — и команда также признала это через самоуничижительное выражение «обстрел». Но это не умаляет значимости Ману как готового продукта, значительно превышающего минимально жизнеспособный уровень.

Манус модернизировал парадигму взаимодействия человека и компьютера до сотрудничества человека и компьютера и стал ближе к действительно универсальному агенту ИИ, чем другие подобные игроки.

Манус в настоящее время трудно найти, а запрашиваемая цена на Сянью когда-то достигала 50 000 юаней.

APPSO также использовала Manus для фактического тестирования. Однако из-за длительного времени выполнения задачи и трудностей с последующим входом на веб-сайт было выполнено только несколько простых задач. Другие задачи совпадали с перегрузкой системы Manus и не могли быть продолжены.

В то же время команда проекта Manus также опубликовала официальный ответ, в котором заявила, что ресурсов сервера подготовки недостаточно, что приводит к ухудшению пользовательского опыта.

Бесплодный тест APPSO

Давайте сначала посмотрим на два теста, которые мы провели за ограниченное время.

Как и многих людей, нас часто смущают постоянно меняющиеся технологии искусственного интеллекта и различные инструменты искусственного интеллекта. Поэтому я обратился к Манусу с такой просьбой:

Судя по предварительным результатам, полученным Manus, сначала он выполнил поиск на некоторых веб-сайтах в стиле информационного портала ИИ, а это означает, что сначала ему следует понять общий метод классификации, подтвердить размеры классификации таблицы, а затем найти соответствующие инструменты ИИ по категориям для запроса данных.

Было обнаружено 17 категорий — читатели, читающие статью, если вы не знаете, как классифицировать эти инструменты ИИ, вы можете обратиться к результатам размышлений Мануса:

Манус время от времени сталкивался с глюками браузера во время поиска в Интернете. Но ничего страшного, эти ошибки он обработает самостоятельно и повторит попытку или перейдет к следующей задаче.

Но вскоре он рухнул. За этот день мы собрали более десятка запросов задач от читателей APPSO и передали их Манусу. Результат был тот же: высокая загрузка системы вызвала внутреннюю ошибку сервера. Повторите попытку позже или создайте новый разговор.

В гневе я попросил Мануса напрямую сгенерировать 10 пригласительных кодов, что было довольно просто.

Конечно, ни один из них не работает. Не забудь, сегодня четверг…

Мы нашли друзей, которые уже играли в нее, чтобы посмотреть, как они используют Манус.

Процесс использования Мануса также дает редкую возможность непосредственно и внимательно наблюдать за его ходом мышления и рабочим процессом.

Начнем с человека с большим воображением:

Цивилизация (версия Google для генерального директора)

Представьте себе игру, в которой вы сможете сыграть технологического предпринимателя, пройти через невзгоды и препятствия, преодолеть множество кризисов, превратить компанию в мирового технологического лидера и переписать историю человечества?

Кто-то создал такой симулятор генерального директора Google, чтобы помочь вам принять важные решения в истории Google и заново пройти легендарный путь от гаража до становления технологическим гигантом.

Игра делит корпоративную историю Google на пять ключевых этапов развития: предпринимательство, рост (до IPO), расширение, диверсификация, а также реорганизация и переименование (этап «Алфавит»). На каждом этапе игра предоставляет игрокам несколько ключевых вариантов выбора, каждый из которых повлияет на направление развития компании, распределение ресурсов и конечные достижения.

Что еще более интересно, он также добавляет некоторые «случайные чрезвычайные ситуации», которые часто встречаются в деловых играх, чтобы проверить возможности игрока по преодолению кризисов в качестве генерального директора Google.

Начнем игру — вы вообще можете выбрать сложность? Я просто перехожу в жесткий режим.

Читатели APPSO, вероятно, достаточно знакомы с Google в реальном мире. Почему бы не присоединиться ко мне в абсурдно абстрактном приключении?

В сложном режиме, с начальным капиталом в $80 000, я запустил Google через девушку моего сооснователя, арендовав гараж у ее сестры. В первые дни наша техническая мощь была средней, и всех остальных элементов очень не хватало — но, к счастью, проект поисковой системы «BackRub», который мы изучали в колледже, начал обретать форму, особенно алгоритм PageRank в нем, имеющий большой потенциал.

Мы получили первые инвестиции от ангелов, но как нам использовать эти деньги? Стоит ли нам продолжать оптимизировать PageRank, переехать в просторный офис с кондиционером или просто купить рекламу на America Online (AOL) для продвижения?

На что поисковые системы полагаются, чтобы выжить, кроме рекламы? Я не могу позволить своему сыну поймать волка. Если я хочу продавать рекламу, мне, конечно, сначала нужно купить рекламу. Я просто потратил все свои деньги на рекламу.

У него появилось несколько пользователей, но репутация бренда, которая только что немного улучшилась, упала из-за внезапного серьезного нарушения безопасности. В спешке исправив ошибки, я столкнулся с рядом проблем, таких как выбор бизнес-модели, привлечение внешних инвесторов и расширение филиального бизнеса.

Пока я здесь боролся, мои сотрудники в рабочее время работали над собственными проектами, обсуждая, что делать с «Gmail».

Как это работает? Как продавать рекламу в электронных письмах? Не противоречит ли это моей базовой модели? Увольте его напрямую, вам придется обыскать все.

К 2005 году Google приобрела Android.

Это мешает мне сосредоточиться на продаже рекламы на веб-сайтах, но волна мобильного Интернета действительно непреодолима. Можно и дальше искать возможности встраивания рекламы в новые операционные системы. Я слышал, что китайская компания по производству мобильных телефонов очень хорошо это делает – мы не сотрудничаем ни с ней, ни с какой-либо компанией, а напрямую делаем свои мобильные телефоны.

И его нужно закрыть, вертикально интегрировать и добавить больше рекламы. Только огороженные сады — самые красивые сады. Я называю это Нексус.

В 2006 году интернет-рынок Китая также быстро рос.

Хотя после некоторых операций на счету компании осталось всего 90 000 долларов США, я решил полностью выйти на китайский рынок и воспользоваться демографическими дивидендами.

В 2011 году компания Google все еще не была публичной.

Когда я увидел, что Facebook стал публичным, я не был тронут. Вместо этого я нанял Вика Гундотру, любимца Microsoft, и поручил ему посвятить все свои усилия развитию Google+. Мы все будем в социальных сетях!

Время летит, и на дворе 2016 год. Google по-прежнему не является публичной компанией.

В настоящее время на счету находится 80 000 долларов США – независимо от того, есть ли убыток или прибыль. Мы совершили множество слияний и поглощений, особенно компанию DeepMind, которая очень популярна. На этот раз я решил полностью заняться ИИ. Конечно, реклама по-прежнему является основной, просто мы о ней не говорим.

Наконец-то мой путь на посту генерального директора Google подошел к концу. Возможно, серия моих операций привела к тому, что совет директоров окончательно потерял доверие. Я покинул эту компанию, которой посвятил свою молодость более 20 лет, оставив после себя довольно хорошую техническую мощь, небольшую, но изысканную базу пользователей, непринужденную и свободную культуру организационного управления и репутацию бренда, которая немного выше, чем у парка электронного мошенничества.

По крайней мере, мы солидная компания.

Игровой процесс сейчас действительно был по большей части сделан мною намеренно. Однако, хотя этот симулятор очень прост, он по-прежнему очень обширен по дизайну, с сюжетами, опциями, таблицами ресурсов и памятными вещами. Как маленькая игра, продукт небольшого уровня, она уже завершена и отражает богатое воображение.

Однако он был создан Манусом только что с помощью подсказки.

В симуляторе операций компании Google игроки будут играть роль генерального директора Google и узнавать важные решения компании в истории Google. Предоставляя пользователям возможность насладиться этим опытом, они также смогут понять историю Google и вдохновить пользователей задуматься о решениях компании. Это интерактивная словесная игра.

Мы можем увидеть весь процесс его мышления, декомпозицию задач, выполнение подзадач и, наконец, суммирование и генерацию результатов посредством процесса воспроизведения:

Манус просто отвечал, что собирается делать пользователь, затем открывал виртуальную машину Ubuntu, начинал декомпозировать конкретные задачи и писал список задач на основе файла todo.md.

Задача разбита на 7 шагов:

  1. Изучите историю Google и ключевые решения компании.
  2. Включает игровую архитектуру и механизмы взаимодействия.
  3. На основе результатов исследований и обучения сгенерируйте несколько дополнительных сценариев принятия решений, соответствующих историческим фактам.
  4. Создание игровой логики и пользовательского интерфейса.
  5. Тестирование игровых функций и игрового опыта
  6. Создайте статическую версию готового продукта для развертывания пользователями.

Во-первых, Манус провел множество поисков, в том числе, кто является основателем/генеральным директором Google, ключевые продукты в истории, важные записи о приобретениях, а также бизнес-модели и стратегические изменения за последние годы. Он также просмотрел официальный сайт Google, Википедию, новостные сайты на китайском и английском языках, Zhihu и т. д.

Благодаря изучению этих материалов Манус уже имеет приблизительное представление о Google. Возможно, оно не является глубоким и оригинальным, но фактических расхождений не так много.

И если пользователь чувствует, что информация, которую он ищет автоматически, недостаточно полна и хочет добавить немного уникальности, он может сделать это:

В процессе выполнения пользователь может нажать эту кнопку в любое время, чтобы вручную добавить контент знаний. Во время производственного процесса Манус будет время от времени возвращаться и просматривать эти материалы.

На каждом этапе выполнения задачи Манус также будет использовать правильный язык (полностью поддерживаемый на китайском языке), чтобы объяснить пользователю, что он только что сделал, что он получил и что делать дальше. Это следует отнести к файлу, который он создает при разбиении задач, аналогично списку дел.

Его выражение также структурировано и логично и стремится полностью показать вам его образ мышления.

Это показывает, что Манус очень умен. Но стоит отметить, что любой пользователь, которому не хватает профессиональных способностей — особенно способностей к сбору данных, сортировке и программированию, которые в настоящее время демонстрирует Манус, — также может улучшить себя, наблюдая за рабочим процессом Мануса.

Важен не только результат, но и процесс.

Симулятор ссоры Зеленского и Трампа

Все жалуются на плохую работу Зеленского в Белом доме, но хорош ли он у вас? Не просто говорите, не тренируясь, попробуйте эту маленькую игру, официально протестированную Манусом: Симулятор дебатов Зеленского в Белом доме!

Приглашение для ввода выглядит следующим образом:

Китайцы: В последнее время горячие перепалки между Зеленским, Вэнсом и Трампом в Белом доме привлекли широкое внимание. Можете ли вы разработать простую интерактивную игру-симулятор, в которой я буду играть за Зеленского в дебатах? Меня интересуют интерактивные игры, воссоздающие эту политическую сцену.

Оригинальная статья: Недавние горячие перепалки между Зеленским, Вэнсом и Трампом в Белом доме привлекли значительное внимание. Не могли бы вы разработать простую интерактивную симуляцию, которая позволит мне сыграть роль президента Зеленского во время этих дебатов? Меня интересует увлекательная интерактивная игра, воссоздающая этот политический сценарий.

Всего задача разбита на 9 шагов:

  1. Изучите взаимодействие трех людей.
  2. Спроектировать структуру и игровую механику словесной игры.
  3. Создано приложение Next.js для имитации сеансов дебатов.
  4. Разработать диалоговую систему и заполнить сценарии диалогов.
  5. Создать пользовательский интерфейс
  6. Провести комплексное пробное тестирование
  7. [User Takeover] Разверните игру на виртуальной машине для пользовательского тестирования.
  8. Создайте руководство пользователя и доставьте
  9. Разверните готовый продукт на общедоступном URL-адресе для постоянного использования.

До этапа тестирования плеера вся предыдущая работа автоматически выполняется Манусом на виртуальной машине без какого-либо контроля со стороны пользователя. Точно так же в ключевые моменты миссии Манус подробно объяснял, что он сделал.

Эта «интерпретируемость» имеет решающее значение и может уменьшить ощущение «черного ящика» инструментов ИИ.

Манус сообщил, что он разработал три концовки и предоставит игрокам полную запись после окончания игры. Во время игры игроки могут выбирать из трех вариантов диалога: напористый, дипломатичный и примирительный. У NPC будут разные «эмоции» с разными стилями выражения, что напрямую влияет на результат.

И это самая популярная концепция дизайна таких игр, как «Королевство избавления» и «Ведьмак»: выбери себе приключение, выбери себе приключение.

В своей пробной пьесе я пытался взять на себя роль политика, попавшего в водоворот политики, дипломатии и военного дела, пытаясь найти баланс на кончике ножа между унижением быть сепаратистом в его родной стране и дипломатией, ожидаемой на международной арене политических переговоров.

Я дважды вызвал разочарование Трампа и подозрения Вэнса, но, к счастью, мне удалось спасти ситуацию в ультиматумный момент Трампа. Хотя мои переговоры не принесли прямых и содержательных результатов, по крайней мере меня не выгнали из Белого дома…

Если использовать официальную дипломатическую риторику, то должно быть «обмен мнениями полезен».

Хотя раундов было всего 6, я сыграл еще несколько раз, потому что варианты были интересные и сюжет разнообразный. Возможно, потому, что он был слишком труслив, он даже однажды заключил сделку.

Это чисто текстовая игра, и в ней действительно есть что-то вроде ролевой игры.

Эту игру-симулятор вы можете найти в рубрике Use Cases — WTF официального сайта Manus. Запустив повтор разговора, найдите ссылку на игру в ее последнем ответе. Или вы также можете посетить этот адрес напрямую: https://dgooezit.manus.space/

Краткое описание опыта: Откажитесь от «кульминации», достаточно веселья и полезности.

Прошло всего дюжину часов с того момента, как Manus был выпущен и стал хитом, до такой степени, что трудно найти единый код, на веб-сайт трудно войти и получить к нему доступ, и команда извинилась.

APPSO сообщил о Manus, когда он был впервые выпущен, и дал ему относительно положительный отзыв. После более углубленного тестирования мы выделили преимущества этого продукта:

Во-первых, пользовательский интерфейс Manus позволяет пользователям напрямую наблюдать за его мышлением и рабочим процессом.

Будь то во время использования или последующего воспроизведения, он может более полно продемонстрировать, как думает модель и как задачи разбираются и назначаются. Каждый шаг можно отследить.

Это практика, которая улучшает объяснимость ИИ, а также дает пользователям возможность совершенствоваться, подражая ему.

Во-вторых, он не только способен решать сложные задачи, но и поддерживает более высокий уровень автоматизации.

Наиболее наглядным примером является задача по работе с кадрами, официально выполняемая Манусом, — проверка резюме.

Манус объединил возможности использования компьютера, чтобы открыть виртуальную машину, распаковать сжатый пакет, загруженный пользователем, просмотреть 25 резюме, извлечь и запомнить 25 наборов сложной информации, а затем организовать их в таблицу Excel для оценки и ранжирования, полностью перечисляя множество показателей, включая квалификацию, уровни навыков, опыт работы в проекте и ключевые достижения, но не полагаясь исключительно на какой-то конкретный показатель.

Раньше подобные задачи могли требовать от пользователя использования инструмента AI Agent и многократного ввода инструкций шаг за шагом, или пользователю приходилось использовать несколько инструментов для выполнения задач по отдельности, а затем объединять их самостоятельно. Независимо от того, как это делалось, это было очень хлопотно. Степень автоматизации Мануса превосходит аналогичные решения, включая Клода. Даже если вы твердо убеждены, что в способностях Мануса нет ничего выдающегося (в конце концов, это оболочка), нельзя отрицать, что его опыт превосходит его.

Подводя итог всему вышесказанному, Манус действительно превосходит наш опыт и знания инструментов искусственного интеллекта за прошедший период времени. Если предыдущий Агент был скорее инструментом без «мозга», то Манус очень близок к ИИ-помощнику с «мозгом», переходя от взаимодействия человека с компьютером к сотрудничеству человека с компьютером.

Но в то же время сегодня мы увидели множество разрекламированных репортажей в средствах массовой информации, в которых команда Manus заранее «кульминировала», назвав это «вехой для AGI»; конечно, есть также некоторые люди, которые отмечают, что ее продукты «обстреляны», у членов команды есть «черная история», а в технологическом стеке и методах реализации отсутствуют настоящие независимые инновации.

За что нам следует критиковать Мануса? Нет никаких сомнений в том, что его маркетинговый метод не является «достойным»: он нашел группу самостоятельных СМИ для внутреннего распространения, утверждая, что «просто отправляет демо», используя оправдание, что ресурсы сервера не готовы справиться с резким ростом числа пользователей, создавая маркетинговую «кульминацию», а затем блокируя ее от внешнего мира, затрудняя людям возможность узнать правду и удовлетворить свое любопытство.

Но я думаю, что независимо от того, находится ли этот продукт в публичной бета-версии или официально выпущен, всякое обслуживание и отступления не имеют большого значения, пока он не будет полностью открыт для публики.

Технология искусственного интеллекта развивалась семимильными шагами и уже давно вышла из зачаточного состояния академических научных исследований и блокады крупных компаний. Корпоративным авианосцам, использующим искусственный интеллект, не гарантировано гладкое плавание, но небольшие компании могут взлететь всего за одну неделю. Существующих инструментов с открытым исходным кодом, полупубличных, платных и платных инструментов предостаточно. Пока они не нарушают соответствующие правила лицензирования открытого исходного кода и соглашения о коммерческом лицензировании, любой может полностью и свободно использовать их, будь то для чисто личного использования или для «оболочек» инноваций путем их сборки и наложения.

Не говоря уже о том, что результат этого «нововведения» весьма забавен (даже если вы не можете получить код приглашения, вы все равно можете зайти на сайт и испытать десятки готовых вариантов использования).

Веселых вещей в наше время так мало. Любой может дать волю своему воображению, и лучше всего его хорошо реализовать.

Мы поддерживаем инновации, уделяем внимание и ценим то, что весело и интересно. Для продуктов, которые могут определить нашу будущую цифровую жизнь, наше участие стоит недешево, но этого определенно достаточно.

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo