Обновлен самый сильный конкурентоспособный продукт OpenAI! Имитация использования компьютеров человеком в одном предложении — крупный прорыв перед пробуждением агентов ИИ.

23 октября, 2024 Дядя Влад

Мир страдает. OpenAI уже давно выжимает зубную пасту.

Если посмотреть на Yunei, то можно увидеть лишь несколько противников, которые могут конкурировать с моделью OpenAI Claude, по крайней мере, надежным конкурентом.

С нетерпением ожидая звезд и луны, я не дождался появления «супербольшой чашки» Opus, но, к счастью, дождался и недавно модернизированной большой чашки Claude 3.5 Sonnet.

Краткое изложение основных моментов этого обновления:

Пробив GPT-4o и выгнав Gemini 1.5 Pro, новая версия Claude 3.5 Sonnet далеко впереди
Claude 3.5 Haiku имеет самую высокую скорость отклика, а его производительность сравнима с GPT-4o mini.
Создайте API, чтобы научить Клода играть на компьютерах.

Научите Клода играть на компьютере, здесь есть ИИ-клавиатурный воин?

Изюминкой этого обновления на самом деле является не новая модель, а то, как научить ИИ играть на компьютере.

Anthropic запустила для публичного тестирования революционную функцию «использование компьютера»: научив Клода управлять компьютером как человек через API, он сможет видеть экран, перемещать курсор, нажимать кнопки, печатать…

Проще говоря, теперь Клод может использовать стандартные инструменты и программное обеспечение, разработанные людьми. Разработчики могут использовать это, чтобы освободиться от некоторых скучных повторяющихся задач процесса и даже выполнять открытые задачи, такие как исследования.

Чтобы снабдить Клода этим навыком, Anthropic использует API, позволяющий Клоду воспринимать компьютерный интерфейс и взаимодействовать с ним.

В частности, разработчики интегрируют этот API в процесс взаимодействия, позволяя Клоду переводить инструкции (например: «Использовать данные на моем компьютере и объединять их с онлайн-информацией для заполнения формы») в компьютерные инструкции (например: проверить форму, переместить Переместите мышь, чтобы открыть браузер, перейдите на соответствующую веб-страницу, а затем заполните таблицу данными из Интернета).

OSWorld — это эталонная платформа, используемая для проверки способности мультимодальных агентов выполнять открытые задачи в реальных компьютерных средах. Обычно она используется для оценки того, способны ли модели ИИ использовать компьютеры, как люди.

Сонет Claude 3.5 набрал 14,9% в категории тестов, посвященных только скриншотам, что значительно опережает второе место с результатом 7,8%. С учетом большего количества шагов Клод набрал 22,0%.

В продуктах некоторых компаний эта функция уже использовалась заранее.

Например, компания Replit использует возможности работы компьютера и навигации по интерфейсу Claude 3.5 Sonnet для разработки ключевой функции своего продукта-агента Replit для оценки разрабатываемых приложений.

Конечно, этот подход не нов.

Потому что до этого Asana, Canva, Cognition, DoorDash, Replit и The Browser Company начали исследовать эти возможности, выполняя задачи, требующие десятков, а то и сотен шагов.

Однако идеал очень насыщен, а реальность очень тощая.

Чиновник также признал, что эта функция пока находится на стадии эксперимента, работает медленно и при работе с компьютером часто возникают ошибки. Некоторые простые операции, такие как прокрутка, перетаскивание и масштабирование, которые, кажется, выполняются людьми взмахом руки, по-прежнему являются для Клода большой проблемой.

Во время записи этих демо мы столкнулись с некоторыми интересными эпизодами. Однажды Клод случайно прервал длинную запись экрана, и все кадры были потеряны.
Позже Клод сделал перерыв между нашими демонстрациями по программированию, чтобы просмотреть фотографии Йеллоустонского национального парка.

Кроме того, Claude захватывает статические изображения экрана, а затем объединяет эти изображения, чтобы понять, что происходит на экране, но из-за этого он может не иметь возможности захватывать краткие экранные действия или уведомления, такие как всплывающие окна или быстро меняющийся значок.

Чиновник также сообщил, что причиной выпуска экспериментального продукта заранее является получение отзывов от разработчиков. Ожидается, что эта функция со временем будет постепенно улучшаться.

Алекс Альберт, директор по связям с разработчиками компании Anthropic, также поделился интересным опытом.

При разработке функции «использование компьютера» они организовали сеанс инженерного устранения неполадок, чтобы выявить любые потенциальные проблемы в API.

Несколько инженеров собрались в одной комнате, чтобы поработать на несколько часов, но быстро проголодались, поэтому одним из первых запросов инженеров по «использованию компьютера» было к Клоду перейти на платформу доставки еды DoorDash и заказать достаточно еды, чтобы накормить его всех. .

Клод подумал об этом около минуты и наконец заказал пиццу для инженеров.

Пользователи сети также быстро откопали список вещей, которые отказывается делать функция использования компьютера:

Создайте учетную запись в социальных сетях или на других платформах.
Отправить электронное письмо или сообщение
Оставьте комментарий в социальных сетях
Совершить покупку
доступ к личной информации
Полный проверочный код (CAPTCHA)
Создание, редактирование или изменение изображений
Позвонить
Доступ к ограниченному контенту
Выполнять действия, требующие личной аутентификации

Король настоящих моделей вывода, кодирование новых моделей далеко впереди

Давайте посмотрим на стенограмму, представленную Клодом 3.5 Сонет.

Хотя достоверность большого списка моделей уже не так высока, как раньше, основываясь на логике того же набора тестовых вопросов, мы все же можем иметь предварительное представление о недавно выпущенных моделях.

Пробив GPT-4o и выбив Gemini 1.5 Pro, Claude 3.5 Sonnet блестяще показал себя в серии тестов производительности, таких как GPQA, MMLU Pro и HumanEVal, и можно сказать, что он далеко впереди.

Claude 3.5 Sonnet еще больше укрепил свое лидерство в области кодирования. Возможно, вам интересно, почему в бенчмарк-тесте нет сравнения с моделью OpenAI o1.

Не волнуйтесь, Anthropic предсказал ваш прогноз. Официальное объяснение:

Причина, по которой семейство моделей OpenAI o1 не включено в нашу оценочную таблицу, заключается в том, что им требуется много времени вычислений, прежде чем ответить, в отличие от большинства моделей. Это существенное различие усложняет сравнение производительности.

Чтобы перевести, мы хотим сравнить, но сравнить невозможно.

Однако в тесте кодирования SWE-bench Verified производительность Claude 3.5 Sonnet выросла с 33,4% до 49,0%, превзойдя все общедоступные модели — включая модели вывода, такие как OpenAI o1-preview, и различные системы кодирования агентов.

Клод 3.5 Сонет — король настоящих моделей вывода.

Кроме того, Claude 3.5 Sonnet также хорошо показал себя в тесте агентского инструмента TAU-bench.

TAU-bench в основном обеспечивает среду оценки, которая ближе к реальным сценариям применения.

В розничном секторе рейтинг Claude 3.5 Sonnet улучшился с 62,6% до 69,2%, а в авиации его рейтинг также вырос с 36,0% до 46,0%.

Более того, эти улучшения не увеличивают цену и не снижают скорость, а Claude 3.5 Sonnet по-прежнему сохраняет то же соотношение цены и качества, что и его предшественник.

В официальном блоге упоминается, что улучшение возможностей кодирования является самым большим достижением Claude 3.5 Sonnet.

Тесты GitLab показали, что его возможности рассуждения увеличились на 10% без дополнительных задержек, что делает его очень подходящим для многоэтапных процессов разработки программного обеспечения. Компания Browser также отметила, что Claude 3.5 Sonnet превзошел все предыдущие модели, которые они тестировали в автоматизации рабочих процессов в Интернете.

Будучи образцовой компанией, которая стремится к чрезвычайно высоким показателям безопасности, Anthropic, естественно, провела оценку катастрофического риска для Claude 3.5 Sonnet, и результаты соответствовали стандарту ASL-2. .

ASL-2 относится к системам, которые проявляют ранние признаки опасных возможностей (например, способность давать инструкции по созданию биологического оружия), но информация не имеет большой пользы из-за недостаточной надежности или неспособности выйти за рамки поисковой системы. могу предоставить.

Короче говоря, каким бы могущественным ни был Сонет Клода 3.5, он пока не угрожает человечеству.

После разговора о самой мощной модели, следующая — новая модернизированная модель с самой высокой скоростью отклика — Claude 3.5 Haiku.

Если судить по бумажным параметрам, то средний Claude 3.5 Haiku почти не уступает GPT-4o mini. Можно даже сказать, что у него небольшой выигрыш, а общая производительность находится на уровне предыдущего поколения Claude 3. Опус.

Но цена не изменилась, и скорость ответа не замедлилась. Есть некорректный опыт "увеличения количества без увеличения цены".

Аналогично, Claude 3.5 Haiku особенно хорошо справляется с задачами кодирования. Например, его оценка на SWE-bench Verified составляет 40,6%, что превосходит многие так называемые современные агенты, включая Claude 3.5 Sonnet (оригинал) и GPT-4o.

Низкая задержка, улучшенные возможности выполнения команд и более точное использование инструментов делают Claude 3.5 Haiku особенно подходящим для сценариев, требующих персонализированных услуг.

Например, он может рекомендовать продукты на основе ваших предыдущих покупательских привычек, помогать вам определять цены на продукты или даже управлять запасами на складе.

Наконец, обновленная версия Claude 3.5 Sonnet теперь доступна всем пользователям. Claude 3.5 Haiku выйдет позднее в этом месяце. Первоначально он будет поддерживать только ввод текста, а функция ввода изображений будет запущена позже.

Если вы в последнее время обратите внимание на круг ИИ, то обнаружите, что несколько важных фигур в отрасли играли в «предвидение».

Демис Хассабис, Ян ЛеКун, Сэм Альтман и Дарио Амодей из Anthropic утверждают, что AGI будет внедрен в течение следующих нескольких лет, а временные рамки варьируются от 2025 до 2030 года.

Они нарисовали один план AGI, который можно сравнить с утопией, например, лечение большинства болезней, решение климатических проблем, искоренение бедности и т. д. Если суммировать основные идеи нескольких длинных статей, ИИ стал почти чудодейственным лекарством от всех болезней.

Но при этом уверенность должна быть подтверждена реальными продуктами.

В отсутствие надежной и устойчивой бизнес-модели отрасль может полагаться только на «слепую веру» в AGI для поддержания высоких инвестиций и расходов, точно так же, как морковка, висящая перед ослом.

Другими словами, ряд функций продукта, таких как выпущенная сегодня модель Claude, также восстанавливают нашу уверенность. Согласно предыдущему ритму выпуска продуктов, ожидается, что OpenAI будет запущен в ближайшее время.

Разница в том, что арсенал OpenAI явно богаче. Возможно, следующим будет представлена официальная версия OpenAI o1 или «будущая» Sora.

Далее подождем и посмотрим, как OpenAI «покажет свой меч».

# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo