Маск выпускает «самую мощную модель», превосходящую DeepSeek и стоящую более чем в 200 раз дороже

18 февраля, 2025 Дядя Влад

«Ужасно умно», — вот что сказал Маск, когда он анонсировал «Грок 3» сегодня рано утром, и весь Интернет с нетерпением ждал его.

Во время пресс-конференции во всей сети первым обновился App Store. Во время пресс-конференции веб-версия Grok была настолько популярна, что вышла из строя.

Хорошо, я выгляжу очень уверенно.

Grok 3 — это не простая итерация продукта. До этого это был дата-центр, построенный Маском, щедрая конфигурация видеокарт, лучшая модель предварительного обучения и постоянное использование обучения с подкреплением для обучения. Его можно назвать новым поколением, рожденным из «обогащения».

Ключевые моменты резюмируются следующим образом:

Аккаунты в США можно обновить, а в Великобритании и Европе будут запущены в версии 2.28.
Запущен премиальный план подписки SuperGrok с ежемесячной платой в размере 30 долларов США и годовой платой в размере 300 долларов США, предоставляющий дополнительные функции вывода и запросов DeepSearch, включая неограниченные услуги по созданию изображений.

Способность рассуждения Grok 3 опережает DeepSeek R1

В слепом тесте LMSYS, известном как Chatbot Arena, Grok 3 занял первое место по различным аспектам, таким как код и ответ на команды.

Будучи продуктом, созданным на базе 200 000 видеокарт, производительность Grok 3 на уровне сбоев по-прежнему доказывает, что закон масштабирования все еще действует.

По сравнению с DeepSeek, который приносит высокую прибыль при низких затратах, Grok 3 фокусируется на том, чтобы «сделать чудеса с большой силой».

На этот раз в Grok 3, который представляет возможности рассуждения, основное внимание уделяется более гибкому распределению вычислительных ресурсов в реальном времени, чтобы обеспечить наиболее разумное использование вычислительных ресурсов при сохранении качества рассуждений.

В то время рассуждения Грока 2 уже достигли уровня SOTA. После нескольких итераций способность модели к обобщению значительно улучшилась. Grok 3 в очередной раз обновил свой рекорд на последнем соревновании AIME.

Однако, очевидно, недостаточно иметь сильные способности к рассуждению. Только будучи быстрым, безжалостным и точным, вы можете участвовать в инволюции больших моделей. На пресс-конференции инженерная группа продемонстрировала два кейса.

Одним из них был запрос на создание кода 3D-анимации, который запускался с Земли на Марс и обратно на Землю. Грок думал 19 секунд и подробно описывал свой мыслительный процесс, включая использование Python для рисования и NumPy для вычислений.

Другой пытается убедить Грока объединить две игры «Тетрис» и «Bejeweled» для создания новой игры.

К сожалению, Грок потерпел два последовательных опрокидывания, как только он вышел. Даже Маск, оглядываясь назад на плохую демонстрационную сессию на экране, не мог не произнести «о боже!» в смущении.

Однако в последующих демонстрациях были представлены и нормальные случаи (не будь демка готова).

И некоторые счастливчики сети уже играли в Grok 3.

▲Фото от X пользователя сети @jesselaunz

DeepSearch здесь, чтобы произвести революцию в поисковых системах

Блокбастер этого обновления — DeepSearch на базе Grok 3, известный как поисковая система нового поколения. Модель будет работать автономно, как агент, и понимать намерения, стоящие за вопросами пользователя, экономя время, потраченное на Google.

Во время живой демонстрационной сессии инженер задал Гроку 3 интересный вопрос: спрогнозировать количество побед и поражений в NCAA «Мартовское безумие», то есть результаты игр на всех уровнях.

Это мероприятие было организовано Баффетом в 2014 году со ставкой до одного миллиарда долларов США, и ставка заключалась в том, чтобы обанкротить Баффета. Исторически никто не добился успеха и даже близко не приблизился к этому, потому что, даже если эксперты это предсказывают, после первых нескольких раундов происходит масса ошибок.

▲ Таблица матчей NCAA 2023 года

Тогда это была маркетинговая кампания. Ведь вероятность выигрыша была очень мала, почти одна на сто миллиардов, что было в принципе невозможно. Вполне разумно оставить эту проблему на усмотрение Grok 3.

Помимо цитируемых материалов, были также структурированы полученные ответы. Вступительное введение, базовые знания, аналитические таблицы и заключительные замечания вполне полны.

Основное внимание в поиске уделяется тому, как перепроверить различные источники информации. Grok 3 решает эту задачу, создавая панель подзадач, позволяющую пользователям отслеживать текущие задачи в режиме реального времени, чтобы гарантировать доступность и надежность ответов.

Таким образом, агент может искать самостоятельно в течение десяти минут, что само по себе эквивалентно одному часу поиска, что может эффективно снизить рабочую нагрузку.

В конце концов, Grok 3 также подарил то, что, как он думал, будет чемпионатом NCAA 2025 года. Март еще не наступил, давайте подождем и посмотрим, сбудется ли его «пророчество Бога».

Что касается того, как испытать Grok 3, официальные лица заявили, что подписчики X Premium+ будут первыми, кто его испытает, а другие расширенные функции будут включены в новый план xAI — SuperGrok.

SuperGrok стоит 30 долларов в месяц и 300 долларов в год и предоставляет только дополнительные возможности вывода и запросов DeepSearch, а также включает неограниченные услуги по созданию изображений.

Джарвис здесь? Еще не совсем здесь

Буквально вчера вечером Шивон Зилис рассказала о своем разговоре с Арой, помощником по искусственному интеллекту, работающим на Grok 3, и сказала, что это было самое неожиданное достижение в жизни.

Это просто увеличило всеобщие ожидания от голосового режима. Перед пресс-конференцией Маск объявил, что голосовой режим будет запущен только в течение недели, а это также означало, что шансов на демонстрационную сессию не было.

Однако во время прямого эфира Маск также заявил, что это будет один из лучших опытов Грока. В конце конференции голосовая модель также озвучила мужской голос, который звучал вполне по-человечески.

Эта небольшая заметка Reuters вызвала большое любопытство, и во время сессии контроля качества посыпались вопросы о голосовом режиме. Конечно, теперь есть и непременная пытка души: «Это открытый исходный код?»

контроль качества

Вопрос: Когда будет запущена голосовая модель Grok, она основана на преобразовании текста в речь или это модель, которая может понимать человеческую речь и реагировать напрямую?
О: Grok в основном понимает, что говорят люди, и сначала выпустит раннюю версию в течение недели, после чего последуют быстрые итеративные обновления.

Вопрос: Когда будет запущен Grok API?
Ответ: Он будет запущен в ближайшие несколько недель и будет включать в себя модели вывода и возможности глубоких исследований.

Вопрос: Может ли Грок помнить интерактивные разговоры?
Ответ: Мы усердно работаем над развитием этой функции, но она еще не полностью завершена.

Вопрос: Будет ли модель Grok иметь открытый исходный код? Ответ: Когда Grok 3 станет зрелым и стабильным, примерно через несколько месяцев Grok 2 станет открытым исходным кодом?

Вопрос: Что было самым сложным в работе над этим проектом?
Ответ: Самая большая задача — обучить всю модель на массивном H100 и поддерживать согласованность.

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo