Все, что вам нужно знать о браузерном агенте OpenAI, Операторе
OpenAI наконец-то вступила в гонку агентного ИИ, выпустив в январе свой ИИ-оператор. Агентская система предназначена для автономной работы от имени пользователя и готова конкурировать с уже признанными конкурентами в отрасли, такими как Claude's Computer Use API и агенты Microsoft Copilot – по крайней мере, после того, как она потеряет статус «предварительного исследования». Вот все, что вам нужно знать о новом агенте OpenAI и о том, когда вы сможете опробовать его самостоятельно.
Что такое Оператор?
Оператор OpenAI — это ИИ-агент , то есть он предназначен для принятия автономных действий на основе доступной ему информации. Но в отличие от обычных программ, агенты ИИ могут отслеживать изменяющиеся условия в режиме реального времени и реагировать соответствующим образом, а не просто выполнять заранее определенные команды. Таким образом, агенты ИИ могут выполнять множество сложных, многоэтапных задач, начиная от расшифровки, обобщения и создания действий, начиная с деловой встречи и заканчивая бронированием авиабилета, проживания в отеле и аренды автомобиля для предстоящего отпуска, исходя из различных графиков вашей семьи, до автономного исследования тем и составления многостраничных исследований по этим темам.
Оператор работает немного иначе, чем другие доступные в настоящее время агенты. В то время как Claude's Computer Use представляет собой API, а агенты искусственного интеллекта Microsoft работают в самом пользовательском интерфейсе чата Copilot, Оператор предназначен для работы в выделенном окне веб-браузера, который запускается на серверах OpenAI и выполняет свои задачи удаленно. Ваш локальный веб-браузер не имеет никакого отношения к этому процессу и может использоваться в обычном режиме, даже когда Оператор работает.
Приложение Оператора основано на новой модели « Агент, использующий компьютер » (CUA), которая, в свою очередь, построена на основе GPT-4o, что обеспечивает мультимодальные возможности приложения. OpenAI утверждает, что CUA обучался аналогично моделям рассуждения o1 и o3. Таким образом, модель CUA разбивает сложные задачи на составляющие проблемы, прежде чем пытаться решить их последовательно, возвращаясь назад, если сталкивается с какими-либо логическими препятствиями.
Когда вышел Оператор?
OpenAI выпустила Оператор 23 января 2025 года. В настоящее время он доступен только пользователям версии Pro за 200 долларов в месяц в США через веб- сайтoperator.chatgpt.com . «Наш план — расширить доступ к пользователям Plus, Team и Enterprise и интегрировать эти возможности в ChatGPT в будущем», — написала компания в своем объявлении .
Как работает Оператор?
Пользователи могут активировать агента на главном экране ChatGPT, при этом в боковом окне открывается специальная страница веб-браузера, позволяющая Оператору выполнять свои задачи. ИИ предоставляет оперативную информацию о том, что он делает в данный момент, и пользователь может взять на себя управление процессом в любое время. Оператор запросит у пользователя помощь в выполнении определенных задач, таких как вход на определенные защищенные веб-сайты, а также получит подтверждение пользователя перед выполнением важных задач. Он может взаимодействовать с веб-сайтами как визуально (т. е. посредством снимков экрана), так и тактически, имитируя нажатия пользователем клавиатуры и щелчки мыши.
Что может делать Оператор и насколько хорошо он это может делать?
Поскольку он ограничен браузером, в настоящее время Оператор может выполнять только простые интернет-задачи, такие как резервирование билетов на концерт, заказ DoorDash или заполнение заказов Instacart. Компания также утверждает, что агент сможет автоматизировать такие задачи, как бронирование отелей и авиакомпаний, резервирование столиков в ресторанах и даже совершение покупок в Интернете.
OpenAI противопоставил Оператора компьютерному использованию Anthropic, а также агенту Mariner от Google DeepMind в ряде отраслевых тестов и утверждает, что Оператор превзошел их по всем направлениям. В тесте OSWorld , который измеряет, насколько хорошо агент может выполнять такие задачи, как объединение PDF-файлов, CUA превосходит использование компьютера с 38,1% до 22,0% — для справки, люди в среднем успешно справляются с этими задачами примерно на 72%. В тесте WebVoyager CUA обогнал Mariner с 87% до 83,5%. Использование компьютера набрало ничтожные 56%.
Однако первоначальная реакция пользователей на ИИ-агент была неоднозначной. Например, обозреватель New York Times Кевин Руст написал: «В целом я обнаружил, что использование оператора обычно доставляет больше проблем, чем оно того стоит. Большую часть того, что он сделал для меня, я мог бы сделать быстрее сам и с меньшими головными болями».
«Даже когда это работало, — продолжил он, — прежде чем действовать, требовалось так много подтверждений и заверений, что я чувствовал себя не так, как будто у меня есть виртуальный помощник, а скорее как будто я контролирую самого неуверенного в себе стажера в мире».
Как я могу попробовать Оператора самостоятельно?
Чтобы получить доступ к агенту оператора OpenAI, вам необходимо подписаться на подписку уровня OpenAI Pro, а затем получить к ней доступ через веб- сайтoperator.chatgpt.com .