Клод из Anthropic теперь может управлять компьютерами, как это делают люди
И без того впечатляющий Claude 3.5 Sonnet от Anthropic во вторник значительно увеличил производительность, поскольку стартап по генеративному искусственному интеллекту представляет улучшенную и обновленную версию модели наряду с новым, облегченным Claude 3.5 Haiku. Обновление Sonnet включает в себя общедоступную бета-функцию, которая дает ИИ базовый контроль над компьютером, на котором он работает.
Claude 3.5 Sonnet уже был лидером по производительности, когда дело доходит до задач кодирования, но новая версия демонстрирует значительные улучшения по всем направлениям по сравнению со своей предшественницей и стабильно превосходит Gemini 1.5 и GPT-4o по ряду отраслевых тестов. Gemini 1.5 Pro была единственной моделью, превзошедшей новый Sonnet 3.5 в любом тесте, и это удалось сделать в тесте MATH .
Новый 3.5 Haiku тоже не отстает, несмотря на свои небольшие размеры. Выпуск 3.5 Haiku, запланированный на конец этого месяца, превосходит Claude 3.0 Opus, крупнейшую модель компании последнего поколения. Как и его более крупная версия, новый Haiku чрезвычайно хорошо справляется с задачами кодирования, набрав 40,6% на тесте SWE-bench Verified — это выше, чем у GPT-40 и оригинального Sonnet 3,5.
Еще более впечатляюще то, что новый Claude 3.5 Sonnet теперь может взаимодействовать с настольными приложениями через API «Использование компьютера». ИИ может генерировать необходимые нажатия клавиш, щелчки мыши и движения, необходимые для имитации пользователя-человека. Компания сразу отмечает, что система в настоящее время является экспериментальной и подвержена ошибкам. Основная цель публичной бета-версии — получить обратную связь от разработчиков для быстрого улучшения производительности API.
«Мы научили Клода видеть, что происходит на экране, а затем использовать доступные программные инструменты для выполнения задач», — написал Anthropic в своем блоге . «Когда разработчик поручает Клоду использовать часть компьютерного программного обеспечения и предоставляет ему необходимый доступ, Клод просматривает скриншоты того, что видно пользователю, а затем подсчитывает, на сколько пикселей по вертикали или горизонтали ему нужно переместить курсор, чтобы щелкнуть мышью. правильное место».
По сути, это агент ИИ. То есть это ИИ, который может автоматизировать другие программные процессы, будь то привлечение и проверка потенциальных клиентов, выявление закономерностей и тенденций в медицинских данных или просто переход на определенный веб-сайт и заполнение необходимой вам формы. Думайте о них как о более продвинутой версии существующих систем роботизированной автоматизации процессов .
Компания называет Asana, Canva, Cognition, DoorDash, Replit и The Browser Company одними из первых, кто внедрил новую функцию. Например, согласно объявлению, Replit использует Computer Control для «разработки ключевой функции, которая оценивает приложения по мере их создания для своего продукта Replit Agent».
Как объясняет Антропик, не стоит беспокоиться о том, что ИИ обрушится на нас по всему Скайнету (пока). «Люди сохраняют контроль, предоставляя конкретные подсказки, которые направляют действия Клода, например, «используйте данные с моего компьютера и в Интернете, чтобы заполнить эту форму», — сказал TechCrunch представитель Anthropic. «Люди разрешают и ограничивают доступ по мере необходимости. Клод разбивает подсказки пользователя на компьютерные команды (например, перемещение курсора, щелчок, ввод текста) для выполнения конкретной задачи».
Anthropic также признает, что Computer Control может быть использован не по назначению для создания спама, распространения дезинформации или мошенничества. В ответ компания разработала новые классификаторы , которые определяют, когда используется API и «приносит ли такое использование вред».