GPT-4o и Gemini 1.5 Pro только что проиграли в гонке ИИ

20 июня, 2024 Дядя Влад

скриншот сонета Клода 3.5 с 8-битным крабом — антропный

Технически в гонке за доминирование ИИ-помощников появился новый лидер, и это новый Claude 3.5 Sonnet от Anthropic. Недавно выпущенная модель превосходит Gemini 1.5 Pro и ChatGPT-4o по ряду тестов, сообщила компания в четверг .

Эта новая версия Sonnet является первой в будущей линейке моделей Anthropic 3.5, и она значительно превосходит более обширную модель Opus 3.0, причем затраты на электроэнергию составляют часть более крупной модели. Эффективность вычислений становится все более важным аспектом проектирования систем искусственного интеллекта , особенно в связи с тем, что стоимость питания и охлаждения центров обработки данных искусственного интеллекта стремительно растет, а мощность инфраструктуры достигает гигаваттного диапазона .

«Claude 3.5 Sonnet работает в два раза быстрее, чем Claude 3 Opus», — написала команда Anthropic в своем блоге. «Такое повышение производительности в сочетании с экономически эффективной ценой делает Claude 3.5 Sonnet идеальным для сложных задач, таких как контекстно-зависимая поддержка клиентов и организация многоэтапных рабочих процессов».

Сообщается, что новая модель установила контрольные результаты по трем стандартизированным тестам: рассуждение на уровне выпускников с помощью GPQA , знания на уровне бакалавриата с помощью MMLU и навыки программирования с помощью HumanEval . Он превзошел Gemini 1.5 Pro от Google, Llama-400b от Meta и ChatGPT-4o от OpenAI, хотя и не с большим отрывом, а обычно всего на пару процентных пунктов.

Таблица, показывающая производительность Claude 3.5 Sonnet по сравнению с другими ведущими системами искусственного интеллекта. — антропный

Sonnet 3.5 позиционируется как «самая сильная модель видения» Anthropic. «Он способен выполнять ряд задач, основанных на зрении, таких как интерпретация диаграмм и графиков или расшифровка текста из несовершенных источников изображений, таких как снимки экрана или отсканированные квитанции, более точно, чем Opus 3.0. Фактически, Sonnet 3.5 превзошел Opus 3.0 на 6–17 баллов по стандартным отраслевым тестам зрения. Сообщается, что новая модель гораздо лучше справляется с юмором и может разговаривать гораздо более реалистично.

Sonnet также станет первым антропным искусственным интеллектом, предлагающим пользователям функцию «Артефакты». Вместо того, чтобы создавать изображения или фрагменты кода непосредственно в ходе разговора, Artifacts создаст этот контент в специально отведенном месте сбоку от чата. Это позволяет пользователям создавать «динамическое рабочее пространство, где они могут видеть, редактировать и развивать творения Клода в режиме реального времени, плавно интегрируя контент, созданный искусственным интеллектом, в свои проекты и рабочие процессы», — утверждает команда Anthropic. Также было объявлено, что Клод вскоре будет поддерживать групповую совместную работу, при которой компания сможет хранить свои данные, документы и проекты в одном центральном хранилище, а Клод будет выступать в качестве помощника по требованию.

Вы можете бесплатно опробовать Claude 3.5 Sonnet сегодня на веб-сайте Claude.ai и в приложении Claude iOS (подписка Claude Pro или Team обеспечит вам значительно более высокие лимиты ставок). Сторонняя интеграция также доступна через Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud. Выпуск Claude Haiku 3.5 и Opus 3.5 запланирован на конец этого года.