Вечерняя бомба! Выпущена первая в мире гибридная модель вывода, Клод умеет «думать», и реальные измерения раскрывают эти детали.

25 февраля, 2025 Дядя Влад

Только что официально вышел Claude 3.7 Sonnet.

Будучи самой интеллектуальной моделью Клода, она использует гибридный подход к рассуждению, который может как быстро генерировать ответы, так и выполнять углубленные пошаговые рассуждения.

Одна модель, два способа мышления.

Кроме того, Anthropic также выпустила интеллектуальный инструмент программирования — Claude Code.

Чиновники заявляют, что Claude 3.7 Sonnet и Claude Code знаменуют собой важный шаг на пути к тому, чтобы ИИ действительно расширил человеческие возможности. Они не только могут глубоко рассуждать и выполнять задачи независимо, но также могут эффективно сотрудничать, что позволяет ИИ приносить большую пользу в реальном мире.

Читать слишком долго, поэтому вот сохранённая версия:

Claude 3.7 Sonnet: первая в мире двухрежимная гибридная модель рассуждения с быстрым откликом в стандартном режиме и расширенным режимом мышления для углубленного самоанализа. Она хорошо справляется с такими сложными задачами, как математика, физика и программирование. Она ориентирована на практическую ориентацию, снижает количество ненужных отказов на 45% и расширяет возможности совместной работы над кодом.
Клод Код: понимает и управляет библиотекой кода непосредственно на терминале, может выполнять задачи ручного программирования, которые занимают более 45 минут за раз, специализируется на разработке через тестирование, сложной отладке и крупномасштабной реконструкции кода, а также полностью поддерживает основные процессы разработки, такие как редактирование кода и выполнение тестов.

Официально выпущена первая в мире гибридная модель вывода, ваш Клод сможет думать

Недавно выпущенный Сонет Клода 3.7 не только представляет подробные пошаговые рассуждения, но и раскрывает процесс «мышления». Благодаря инволюции DeepSeek она способствовала повышению прозрачности отрасли.

Точно так же, как люди могут использовать один и тот же мозг для быстрой реакции и глубокого мышления, Anthropic также считает, что способности рассуждения не должны полагаться на отдельные модели.

Лучше всего, если одна модель обрабатывает все сценарии.

Пользователи могут свободно выбирать, позволить модели отвечать быстро или позволить ей глубоко подумать в течение более длительного периода времени.

В стандартном режиме это обновленная версия Claude 3.5 Sonnet; в режиме расширенного мышления он проводит самоанализ перед ответом, что значительно улучшает его производительность при выполнении сложных задач, таких как математика, физика, понимание инструкций и программирование.

Судя по результатам тестов, Claude 3.7 Sonnet (Expanded Mind Edition) подходит для серьезных логических рассуждений и математических задач, тогда как Grok 3 Beta и DeepSeek R1 лучше справляются с конкретными задачами (рассуждения, математические соревнования).

DeepSeek R1 обладает лучшими способностями к решению математических задач (97,3%), а также хорошо справляется с другими задачами.

В процессе оптимизации модели вывода Anthropic сократила свое внимание к проблемам конкуренции в области математики и информатики и больше сосредоточилась на удовлетворении реальных потребностей предприятий в LLM.

В тесте производительности SWE-bench Verified, который конкретно оценивает способность искусственного интеллекта решать реальные проблемы программного обеспечения, Claude 3.7 Sonnet достиг ведущего в отрасли уровня. В то же время модель также отлично показала себя в тесте TAU-bench, продемонстрировав отличную способность взаимодействия с пользователями и инструментами.

Стоит отметить, что Claude 3.7 Sonnet превзошел все модели предыдущего поколения во внутреннем игровом тесте Pokémon компании Anthropic, продемонстрировав более сильные возможности принятия решений и планирования.

Модель теперь доступна во всех планах подписки Claude, включая Free, Pro, Team и Enterprise, а также доступна через Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud.

Стоит отметить, что, за исключением бесплатной версии, все платформы поддерживают расширенный режим мышления.

Независимо от того, какую модель вы используете, цены остаются такими же, как и у предыдущей модели. Плата за ввод 1 миллиона токенов составляет 3 доллара США, а плата за вывод 1 миллиона токенов (включая токены, используемые в процессе мышления) — 15 долларов США.

Мастерство Клода в программировании сделало его моделью, которую в прошлом предпочитали многие разработчики, а теперь Claude 3.7 Sonnet усиливает его преимущества.

Такие компании, как Cursor, Cognition, Vercel, Replit и Canva, подтвердили, что модель превосходно справляется со сложными базами кода, использованием расширенных инструментов, планированием изменений кода и обработкой полного стека обновлений.

Чтобы оптимизировать взаимодействие с пользователем, интеграция GitHub открыта для всех планов подписки, что позволяет разработчикам напрямую подключать свою базу кода к Claude для более эффективного сотрудничества. Будь то исправление ошибок, разработка новых функций или улучшение документации, Claude 3.7 Sonnet может обеспечить лучшую поддержку личных проектов и баз кода GitHub корпоративного уровня.

С точки зрения безопасности, благодаря сотрудничеству с внешними экспертами, Claude 3.7 Sonnet может более точно различать вредоносные запросы и обычные запросы, чем модель предыдущего поколения, сокращая ненужные отклонения на 45% и обеспечивая более плавный интерактивный интерфейс.

▲Перехвачено с системной карты Claude 3.7 Sonnet.

Хотите бросить работу на полпути написания кода? Оставьте сложные проблемы Клоду Коду

Anthropic также запустила Claude Code, инструмент для интеллектуального программирования, который в настоящее время открыт в качестве ограниченной предварительной версии для исследований. Разработчики могут передавать Клоду большое количество инженерных задач прямо в терминале.

Недавно запущенный Claude Code может искать и читать код, редактировать файлы, писать и запускать тесты, отправлять и отправлять код на GitHub, а также использовать инструменты командной строки.

По словам представителей Anthropic, в ранних тестах Claude Code мог выполнять ручные задачи, которые обычно занимали более 45 минут за один раз, что значительно сокращало время разработки и рабочую нагрузку. Он был особенно выдающимся в разработке через тестирование (TDD), отладке сложных проблем и крупномасштабном рефакторинге.

Будучи интеллектуальным помощником по программированию, работающим на терминале, Claude Code может напрямую понимать базу кода разработчика и помогать пользователям более эффективно писать код с помощью команд на естественном языке. Он легко интегрируется в среду разработки, не требуя дополнительных серверов или сложной настройки, что значительно упрощает рабочие процессы.

Его основные функции включают редактирование файлов, исправление ошибок, ответы на вопросы об архитектуре и логике кода, выполнение тестов, исправление ошибок тестов, выполнение проверок формата кода, а также поиск в истории Git, разрешение конфликтов слияния, создание коммитов и запросов на извлечение и т. д.

Anthropic заявила, что в ближайшие несколько недель они планируют продолжить оптимизацию Claude Code, внося ключевые улучшения, включая повышение стабильности вызовов инструментов, поддержку длительных команд, улучшение эффектов рендеринга в приложениях и улучшение понимания Claude своих собственных способностей.

Этот выпуск предварительной исследовательской версии также призван дать более глубокое понимание того, как разработчики используют Claude для программирования, тем самым предоставив ссылку для дальнейшей оптимизации будущих версий модели.

Заинтересованные разработчики могут проверить соответствующие вопросы и дать указания на официальном сайте.
https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

Неужели ИИ развивается настолько быстро, что не успевает даже за присвоением имен?

X Нетизен на самом деле использовал его, но его внимание было немного неправильным. Слова, написанные год назад, все еще можно использовать.

На вопрос, сколько букв в клубнике, Клод Сонет 3.7 ответил неправильно, но чиновник, похоже, закопал в этом вопросе пасхальное яйцо. Надо сказать, что чиновник умеет шалить.

Известный блоггер @rowancheung заранее использовал Claude 3.7 Sonnet и похвалил эту модель как лучшую модель ИИ для кодирования в мире. После получения простой команды была создана игра, похожая на Minecraft, и ее можно было сразу запустить.

Чем больше жетонов рассуждений израсходовано, тем лучше эффект «Радужного единорога», нарисованного Клодом 3.7 Сонетом.

Мы также кратко познакомились с Сонетом Клода 3.7.

«Чтобы сжечь неровную веревку, требуется один час. Как вы можете использовать этот метод, чтобы судить о получасе? Всего требуется один час, чтобы сжечь неровную веревку от начала до конца. Теперь есть несколько веревок из одного и того же материала. Как я могу использовать метод сжигания веревки, чтобы рассчитать время в один час и пятнадцать минут?»

Простой вопрос-рассуждение чуть не сжег процессор Claude 3.7 Sonnet.

Я полагаю, вы заметили, что по сравнению с мыслительным процессом, отображаемым DeepSeek R1, мыслительный процесс, раскрытый Claude 3.7 Sonnet, более объективен и лишен персонализированного выражения. Это намеренный замысел.

Вместо стандартной тренировки персонажа на мыслительном процессе модели, Антропик хотел дать Клоду максимальную свободу мыслить самостоятельно, что, как и человеческий разум, может содержать идеи, которые не совсем верны или еще не созрели.

Более того, Anthropic считает, что процесс мышления, отображаемый моделью, не обязательно действительно отражает ее внутреннюю логику принятия решений. Поэтому Anthropic взвешивает, стоит ли продолжать раскрывать мыслительный процесс Клода в будущих версиях, и оценивает его плюсы и минусы. Дальнейшие корректировки будут внесены на основе отзывов пользователей и прогресса исследований в будущем.

Интересно, что мы уже упоминали ранее, что по мере того, как новые модели выпускаются одна за другой, различные номера версий и правила наименования также поражают воображение.

В прошлом году, когда генерального директора OpenAI Сэма Альтмана спросили о стратегии именования продуктов компании, он также признал, что это была настоящая головная боль.

Генеральный директор Anthropic Амодей также сказал, что, хотя метод именования Клода выглядел хорошо в первые дни, с быстрыми итерациями и обновлениями модели, используемая до сих пор система именования также стала растянутой.

Он отметил, что в настоящее время ни одна компания, занимающаяся искусственным интеллектом, по-настоящему «не решила проблему именования», и все усердно работают над поиском более простых и понятных методов именования. Это также может быть редким консенсусом среди гигантов ИИ.

Директор по продукту Anthropic Майк Кригер также объявил о закулисном присвоении названия Claude 3.7 Sonnet на платформе X.

Процесс внутренней борьбы, вероятно, такой

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo