Только что OpenAI выпустила своего первого ИИ-агента! Автоматически поможет вам заказывать еду и покупки, прямую трансляцию и опрокидывание, вам необходимо знать эти детали, прежде чем использовать его.

Сегодня рано утром генеральный директор OpenAI Сэм Альтман объявил о двух важных новостях.

Во-первых, пользователи ChatGPT не только получат возможность бесплатной пробной версии o3-mini, но и участники платной подписки Plus также получат большую квоту использования.

Другой — официальный дебют долгожданного первого продукта интеллектуального агента — предварительной версии исследования оператора. Хорошая новость заключается в том, что это может помочь вам автоматически совершать покупки в Интернете, но плохая новость в том, что, возможно, его будет легче «перевернуть».

Президент OpenAI Грег Брокман разместил на платформе X: «Оператор — агент, который может использовать собственный браузер для выполнения задач за вас. 2025 год станет годом агента».

OpenAI позволяет ИИ научиться «использовать компьютеры»? Это первый шаг к AGI

Будучи первым ИИ-помощником OpenAI, который действительно имитирует людей, работающих с веб-браузером, Оператор может автоматически выполнять сложные задачи, такие как бронирование жилья, столик в ресторане и онлайн-покупки.
Пользователи могут выбирать различные задачи автоматизации в нескольких категориях, охватывающих такие области, как покупки, доставка, питание и путешествия.

Эта функция сначала будет доступна пользователям из США, которые подписались на план Pro за 200 долларов, и постепенно будет расширена для пользователей уровней Plus, Team и Enterprise.

Ожидается, что API будет доступен в течение нескольких недель.

Пользователи могут получить доступ к сервису черезoperator.chatgpt.com. OpenAI планирует интегрировать его в ChatGPT в будущем. Однако сегодня рано утром ChatGPT снова прекратил работу.

Проще говоря, когда пользователь включает оператора, система открывает небольшое окно, отображающее рабочий интерфейс специального веб-браузера и объясняющее выполняемые задачи в режиме реального времени. В течение этого времени пользователю разрешено взять на себя управление в любой момент.

На техническом уровне Оператор использует удаленный облачный браузер для выполнения задач, не полагаясь на API веб-сайта.

Он идентифицирует элементы интерфейса по скриншотам, планирует последующие действия и формирует замкнутый цикл «наблюдение-планирование-выполнение» до завершения задачи. Система поддерживает многозадачную параллельную обработку, имеет высокую эффективность работы и может поддерживать статус входа в систему.

OpenAI сотрудничает с такими компаниями, как DoorDash, Instacart, Priceline, StubHub и Uber.

Дэниел Данкер, директор по продуктам Instacart, отметил, что «Operator OpenAI — это технологический прорыв, который делает такие процессы, как заказ продуктов, чрезвычайно простыми».

Как обычно, в это же время OpenAI провела пресс-конференцию. Сэм Альтман присоединяется к Яшу Кумару, Кейси Чу и Рейитиро Накано, чтобы представить и продемонстрировать Оператора.

Демонстрация охватывала несколько сценариев практического применения, таких как резервирование места для двух человек в ресторане Beretta через OpenTable. Первоначальное место на 7 часов было недоступно, а затем было перебронировано на 7:45.

Используйте систему покупок Instacart, чтобы определить свой список покупок (яйца, шпинат, грибы, куриные ножки, картофельные чипсы) и по ходу дела добавляйте больше яиц и многое другое.

Попробуйте найти и купить билеты на игру Warriors стоимостью менее 500 долларов США на сервисе очистки книг StubHub и запланируйте заказ еды, пиццы-барбекю и многого другого через DoorDash;

Идеал прекрасен, но реальность очень тощая. Самая большая проблема Оператора в настоящее время заключается в том, что он недостаточно стабилен. Вначале демонстрация прошла гладко, но на среднем и последующих этапах демонстрации произошла серия «опрокидываний», и даже не удалось успешно загрузить соответствующие веб-страницы.

Возможно, чтобы обеспечить успех демонстрации, слова, вводимые ведущим, становились все длиннее и длиннее.

Знаменитость X-платформы @rowancheung также заранее испытал и поделился своими наблюдениями об Операторе.

Например, хотя Оператор работает в ChatGPT, его функции совершенно разные. Он в основном ориентирован на операции с веб-страницами (нажатие, прокрутка, ввод текста), а не на создание длинного текста. В системе по-прежнему существуют ограничения, в том числе некоторые веб-сайты, блокирующие доступ к искусственному интеллекту, и ограниченная интеграция с партнерами.

Он отметил, что для оптимизации эффекта Оператору требуются определенные методы использования, точно так же, как GPT-4 подходит для подсказок CoT, но текущие исследования наилучшего использования Оператора все еще являются предварительными.

Однако он по-прежнему оптимистичен в отношении того, что эта технология может помочь людям автоматизировать скучные задачи, чтобы они могли использовать свое время для более ценных дел.

Ранее сообщалось, что содержимое скриншота, используемое Оператором при выполнении задач, может быть использовано злонамеренно, что приводит к «атакам с быстрым внедрением», что представляет серьезную угрозу безопасности.

Поэтому обеспечение безопасного использования Операторов является главным приоритетом.

Согласно официальному блогу, OpenAI в основном использует несколько уровней защиты для предотвращения злоупотреблений и обеспечения жесткого контроля пользователей над Оператором.

  • Режим захвата: Оператор просит пользователя взять на себя управление при вводе конфиденциальной информации (например, учетных данных для входа или платежной информации) в браузер. В режиме перехвата оператор не будет собирать или делать скриншоты введенной пользователем информации.
  • Подтверждение пользователя: Оператор должен запросить одобрение перед выполнением любого важного действия (например, отправки заказа или отправки электронного письма).
  • Ограничения по задачам. Операторы обучены отказываться от выполнения определенных конфиденциальных задач, таких как банковские операции, или задач, требующих принятия важных решений, таких как принятие решения по заявлению о приеме на работу.
  • Режим наблюдения: на особенно конфиденциальных сайтах, таких как электронная почта или финансовые услуги, Оператору необходимо внимательно следить за своим поведением, чтобы пользователи могли напрямую обнаружить любые потенциальные ошибки.

Кроме того, OpenAI внедрила комплексные меры защиты конфиденциальности и безопасности для Оператора. Что касается управления конфиденциальностью, пользователи могут выйти из обучения модели, удалить данные просмотра и исторические разговоры одним щелчком мыши, а также выйти из всех веб-сайтов.

Для предотвращения атак со стороны вредоносных веб-сайтов в системе создан многоуровневый механизм защиты, включающий обнаружение и игнорирование оперативных внедрений, мониторинг подозрительного поведения и создание конвейера идентификации угроз. В то же время у Оператора имеется система аудита, позволяющая отклонять вредоносные запросы и нежелательный контент, а также выдавать предупреждения или отзывать права доступа за нарушения.

Был объявлен «Отчет об опыте». Насколько сильна технология CUA, лежащая в основе оператора?

Агент, использующий компьютер (CUA), — это основная технология, поддерживающая оператора. Он сочетает в себе возможности визуального распознавания GPT-4o и расширенные возможности рассуждения, основанные на обучении с подкреплением.

CUA прошел обучение, чтобы овладеть способностью взаимодействовать с графическими пользовательскими интерфейсами (GUI), кнопками управления, меню и текстовыми полями на экране, как люди, не полагаясь на конкретную операционную систему или сетевой API.

Сообщается, что его инновация заключается в использовании метода универсального интерфейса, который позволяет ИИ управлять различными программными инструментами, как и люди, прорывая множество сценариев нишевых приложений, с которыми традиционному ИИ трудно справиться.

Однако в OpenAI признали, что CUA еще есть много областей для улучшения. Например, в настоящее время он не может гарантировать стабильную работу во всех сценариях.

Система CUA, развернутая OpenAI в Операторе, демонстрирует производительность в различных сценариях. Например, он хорошо справляется с базовыми веб-операциями и повторяющимися задачами, такими как поиск и фильтрация, создание списков покупок и списков воспроизведения музыки, с показателем успеха 10/10.

Он также поддерживает высокий показатель успеха 9/10 при поиске продуктов на веб-сайтах электронной коммерции. Но когда дело доходит до таких задач, как сложный поиск недвижимости, процент успеха падает до 3/10.

Тест также показал, что качество слов-подсказок существенно влияет на вероятность успеха задачи. Например, в задаче по бронированию места после добавления определенного времени и инструкций по выполнению действий вероятность успеха увеличилась с 3/10 до 8/10.

Система плохо работает при работе с незнакомыми интерфейсами пользовательского интерфейса и редактировании текста. Часто происходят неэффективные операции проб и ошибок. Вероятность успеха задач редактирования текста составляет всего 4/10.

Чтобы лучше оценить показатели производительности Оператора, докладчики на конференции также упомянули тест OS World и тест Web Arena.
OS World используется для оценки навигационных способностей агентов ИИ в таких операционных системах, как Linux. Оператор набрал 38,1%, что выше, чем в других общедоступных системах, но ниже человеческого уровня (72,4%).

Web Arena тестирует и оценивает навигационные возможности агентов ИИ на веб-сайтах электронной коммерции и социальных форумах. Оператор набрал 58,1%, что также превзошло другие общедоступные системы ИИ, но не дотянуло до человеческого уровня.

Что касается безопасности, демонстрационная сессия представила три основных соображения безопасности. Во-первых, система отказывается выполнять вредоносные задачи, использует модель аудита и последующего обнаружения, а также блокирует определенные веб-сайты.

Во-вторых, что касается возможных ошибок в модели, система должна получить подтверждение пользователя перед выполнением ключевых операций, таких как покупки и бронирование, ограничить задачи с высоким риском, такие как банковские транзакции, и включить режим наблюдения на конфиденциальных веб-сайтах.

Специально для состязательных атак на веб-сайты (таких как быстрое внедрение, взлом джейлбрейка и фишинг) система разработала механизм осторожной навигации для выявления и игнорирования быстрого внедрения, модель мониторинга в реальном времени для обнаружения подозрительного контента и конвейер обнаружения для быстрого выявления подозрительного контента. шаблоны доступа.

Наконец, система оснащена монитором внедрения (монитор быстрого внедрения), который аналогичен антивирусному программному обеспечению. Модель мониторинга в реальном времени обнаруживает подозрительный контент и приостанавливает выполнение при обнаружении подозрительного поведения.
Учитывая, что невозможно предусмотреть все риски безопасности, OpenAI может начать только с мелкомасштабного развертывания и совершенствовать механизм безопасности путем постоянного сбора обратной связи.

Развитие ChatGPT доказало, что отличные продукты часто рождаются в результате бесчисленных «несовершенных» попыток.

OpenAI также откровенно признает, что Оператор, поддерживаемый в настоящее время CUA, является лишь ранней технологией. Несмотря на то, что она доказала свою полезность в конкретных сценариях, она все еще нуждается в постоянном совершенствовании на основе отзывов пользователей.

Кроме того, планируют улучшить адаптивность системы к незнакомым интерфейсам, повысить точность редактирования текста, оптимизировать понимание различных подсказок и расширить круг надежных задач.

Альтман заявил в своем блоге в начале месяца, что OpenAI уверен в создании общего искусственного интеллекта (AGI), и предсказал, что первая партия агентов ИИ «присоединится к рабочей силе» в 2025 году.

В том числе компания Zhipu также объявила вчера о запуске GLM-PC.

Он основан на CogAgent, большой мультимодальной модели Wisdom Spectrum, и является первым в мире общедоступным готовым к использованию компьютерным агентом. Он может «наблюдать» и «управлять» компьютерами, как люди, помогая пользователям эффективно выполнять различные компьютерные задачи.

Можно предвидеть, что в будущем эти интеллектуальные агенты будут обладать мощными возможностями автономного принятия решений и выполнения задач, смогут решать сложные задачи и даже заменять человеческий труд в некоторых областях, а также фундаментально изменят методы производства и выпуск продукции предприятий.

В пятиуровневой дорожной карте AGI OpenAI агент находится на уровне L3, для которого характерно не только мышление, но и действия от имени пользователя и выполнение сложных задач.
С этой точки зрения Оператор — это не только первый шаг для агентов OpenAI, но и важный шаг на пути к AGI.

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo