Только что OpenAl выпустила набор инструментов Agent, пользователь сети: Спасибо, Manus AI.

Только что OpenAI выпустила серию новых инструментов и API, предназначенных для создания агентов ИИ, которые помогают разработчикам легче создавать агенты ИИ (интеллектуальные агенты), которые могут автоматически выполнять задачи.

OpenAI считает, что, хотя расширенные возможности рассуждения, мультимодальное взаимодействие и другие возможности моделей, представленные в прошлом году, заложили основу для агента, разработчики по-прежнему будут сталкиваться со многими трудностями при создании агентов производственного уровня.

С этой целью в число основных продуктов, выпущенных на этот раз, входят новый API Responses, три встроенных инструмента и SDK Agents с открытым исходным кодом.

Версия с экономией потока выглядит следующим образом:

  • API ответов: новый интерфейс API, сочетающий в себе простоту API завершения чата с мощью инструмента API помощников.
  • Инструмент веб-поиска: инструмент, который позволяет моделям получать доступ к Интернету для получения самой последней информации.
  • Инструмент поиска файлов: усовершенствованный инструмент для извлечения необходимой информации из больших объемов документов.
  • Инструмент использования компьютера: инструмент автоматизации операций компьютера, поддерживаемый моделью агента, использующего компьютер (CUA), позволяющий ИИ управлять интерфейсом компьютера, как человек.
  • Agents SDK: обновлен на основе платформы Swarm, платформы с открытым исходным кодом, которая упрощает оркестровку рабочих процессов с несколькими агентами.

В частности, API Responses сочетает в себе простоту API завершения чата (в основном используемого для генерации ответов на разговоры) и возможности использования инструментов API Assistants (который позволяет ИИ вызывать внешние функции, такие как проверка информации и управление), становясь новой основой для создания приложений агентов.

Что касается встроенных инструментов, инструмент веб-поиска поддерживает модели GPT-4o и GPT-4o-mini, что позволяет получать самую свежую информацию в Интернете и предоставлять четкие ссылки. В тесте SimpleQA версии этих двух моделей для предварительного просмотра поиска достигли впечатляющих показателей точности — 90% и 88% соответственно.

Обновленный инструмент поиска файлов стал еще более мощным: он поддерживает несколько форматов файлов, оптимизирует запросы, фильтрует метаданные и настраивается сортировку, что позволяет разработчикам быстро находить ключевую информацию в горах документов.

Инструмент использования компьютера основан на той же модели агента, использующего компьютер (CUA), что и оператор, который фиксирует операции с мышью и клавиатурой, генерируемые этой моделью, достигая оценок 38,1%, 58,1% и 87% в тестах OSWorld, WebArena и WebVoyager соответственно.

OpenAI также выпустила пакет Agents SDK с открытым исходным кодом, который специально разработан для упрощения координации рабочих процессов с несколькими агентами.

По сравнению с экспериментальной платформой Swarm, выпущенной в прошлом году, этот новый SDK был значительно улучшен. Он обеспечивает простую в настройке интеграцию LLM со встроенными инструментами, интеллектуальное управление передачей данных между агентами, настраиваемые проверки безопасности, визуальное отслеживание и другие функции. Он подходит для автоматизации поддержки клиентов, многоэтапных исследований, генерации контента и других сценариев применения.

Некоторые первые пользователи тестов уже добились реального прогресса в использовании этих новых инструментов.

В случаях, перечисленных на официальном веб-сайте, Hebbia использует инструменты веб-поиска, чтобы помочь управляющим активами и практикующим юристам извлекать полезную информацию из огромных данных. Navan применяет инструменты поиска файлов к турагентам с искусственным интеллектом, чтобы предоставлять пользователям точные ответы о политике путешествий;

Unify и Luminai используют компьютерные инструменты для автоматизации сложных операционных процессов, особенно для традиционных систем, в которых отсутствуют API; Box использует Agents SDK для быстрого создания и развертывания корпоративных приложений для поиска данных.

После выпуска продукта пользователи сети также пошутили в области комментариев OpenAI, а некоторые пользователи сети даже оставили специальные сообщения, чтобы поблагодарить Мануса AI.

Сегодня во время прямого эфира в 1 час ночи ведущий также показал нам кейс применения агента «персональный стилист» для демонстрации возможностей различных новых инструментов.

Например, они сначала использовали инструмент поиска файлов, чтобы просмотреть данные о предпочтениях пользователей в одежде (таких как «Кевин»), и система легко отсортировала стили одежды этих людей.

Затем в сочетании с инструментом веб-поиска система может искать близлежащие похожие магазины на основе местоположения пользователя («Токио» используется в качестве местоположения Кевина в демонстрации) и рекомендует Кевину магазины Patagonia в Токио.

Затем на сцене появился инструмент использования компьютера, который автоматически управлял веб-интерфейсом, чтобы купить черную куртку Patagonia для Кевина. Весь процесс был плавным и плавным — щелкайте, перетаскивайте и заполняйте информацию, как если бы ею управлял реальный человек.

Наконец, также демонстрируется функция передачи обслуживания между агентами. Агент беспрепятственно передает запрос на возврат агенту службы поддержки клиентов, который может вызывать такие функции, как получение паролей и отправку запросов на возврат средств, чтобы помочь пользователям завершить возврат курток Patagonia.

Можно сказать, что при негласном сотрудничестве новых инструментов и API эти ИИ-агенты могут не только понимать предпочтения пользователей, получать информацию в режиме реального времени и выполнять сложные операции, но также могут гибко переключаться между различными задачами, прекрасно охватывая весь процесс от рекомендации до покупки и возврата.

Что касается структуры существующего API, OpenAI заявила, что продолжит полностью поддерживать API Chat Completions, чтобы предоставлять новые модели и функции для разработчиков, которым не нужны встроенные инструменты.

Основываясь на отзывах о бета-версии Assistants API, они интегрировали ключевые улучшения в API Responses. Они планируют официально деактивировать Assistants API в середине 2026 года после согласования функций и предоставят подробное руководство по переходу.

Также недавно выпущена цена на новые инструменты: веб-поиск составляет 30 долларов США за поиск GPT-4o и 25 долларов США за поиск GPT-4o-mini за 1000 запросов; поиск по файлам — 2,5 доллара США за каждые 1000 запросов, а хранилище файлов — 0,1 доллара США за ГБ в день (первый ГБ предоставляется бесплатно); инструменты для использования компьютера оплачиваются по цене 3 доллара США за входной миллион токенов и 12 долларов США за миллион выходных токенов.

OpenAI заявила, что по мере того, как возможности модели становятся все более похожими на агенты, они будут продолжать углублять интеграцию между API и предоставлять новые инструменты, помогающие развертывать, оценивать и оптимизировать агентов в производственных средах.

Генеральный директор Nvidia Дженсен Хуанг однажды сказал, что в будущем ИТ-отдел каждой компании будет преобразован в «отдел кадров» AI Agent.

Агенты вскоре станут важной частью рабочей силы и повысят производительность в различных отраслях: от управления людьми до управления ИИ. Выпущенный на этот раз набор инструментов — это всего лишь важный шаг, помогающий разработчикам и предприятиям создавать, развертывать и расширять надежные и эффективные агенты ИИ.

Раньше разработчикам приходилось комбинировать различные API и писать сложную логику координации для создания ИИ-агентов, но новые инструменты значительно упрощают этот процесс.

API Responses объединяет множество функций в простой интерфейс, в то время как встроенные инструменты предоставляют ИИ возможность «воспринимать» и «действовать», а Agents SDK предоставляет стандартную структуру для координации нескольких агентов.

Снижая технический порог, больше компаний смогут быстро создавать и развертывать ИИ-агентов. Возможно, в этом и есть истинный смысл того, что OpenAI называет «первым годом агентов» — позволяя ИИ больше не ограничиваться окнами чата, но может быть интегрирован в реальные рабочие процессы и стать вашим «цифровым помощником» или даже «цифровым коллегой».

Прилагаем вопросы и ответы АМА:

Вопрос: Какая операционная система лучше всего подходит для использования на компьютере: Linux, Mac или Windows? Что лучше: графический интерфейс (UI), терминал или другие методы? Какие приложения лучше всего работают на вашем компьютере, или это не имеет значения?
Ответ: Модель CUA в первую очередь была подготовлена ​​для веб-задач, но первые пользователи обнаружили, что она на удивление хорошо работает и с настольными приложениями. Однако это еще только начало, и нам еще есть что улучшить!

Вопрос: Будете ли вы предоставлять TypeScript SDK?
А: Да! Скоро мы запустим TypeScript SDK, так что следите за обновлениями!

Вопрос: Увидим ли мы o1 pro в API в будущем?
О: Да, мы планируем в ближайшее время выпустить его в API ответов!

Вопрос: Нужно ли нам самим управлять средой Docker, чтобы использовать функции компьютера?
О: Если вы хотите, вы можете управлять средой Docker самостоятельно, но вы также можете использовать облачный сервис, например @browserbasehq или @scrapybara.

Вопрос: Когда Оператор будет доступен в API?
О: С сегодняшнего дня вы можете использовать в API тот же функционал, что и Оператор! Мы развернули модель CUA, которая управляет оператором в новом API ответов.

Вопрос: Будете ли вы рассматривать возможность предоставления интегрированных виртуальных машин (ВМ) для поддержки «использования компьютера» или работать с партнерами, чтобы уменьшить необходимость создания среды?
О: Планов по этому поводу пока нет, но вы можете ознакомиться с примером приложения CUA, которое содержит несколько примеров сред, включая @scrapybara и @browserbasehq, для удаленного хостинга.

Вопрос: Как обеспечить конфиденциальность личных данных на протяжении всего процесса передачи агента? Есть ли способ повысить защиту конфиденциальности пользователей при взаимодействии с Агентом?
О: У нас есть несколько механизмов защиты конфиденциальности. Agents SDK поддерживает определенные разработчиком меры безопасности (защитные меры) для проверки ввода/вывода. Кроме того, вы можете использовать input_filter для ограничения контекста сообщения, передаваемого во время передачи обслуживания.

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo