Маск выпускает «самую мощную модель», превосходящую DeepSeek и стоящую более чем в 200 раз дороже
«Ужасно умно», — вот что сказал Маск, когда он анонсировал «Грок 3» сегодня рано утром, и весь Интернет с нетерпением ждал его.
Во время пресс-конференции во всей сети первым обновился App Store. Во время пресс-конференции веб-версия Grok была настолько популярна, что вышла из строя.
Хорошо, я выгляжу очень уверенно.
Grok 3 — это не простая итерация продукта. До этого это был дата-центр, построенный Маском, щедрая конфигурация видеокарт, лучшая модель предварительного обучения и постоянное использование обучения с подкреплением для обучения. Его можно назвать новым поколением, рожденным из «обогащения».
Ключевые моменты резюмируются следующим образом:
- Аккаунты в США можно обновить, а в Великобритании и Европе будут запущены в версии 2.28.
- Запущен премиальный план подписки SuperGrok с ежемесячной платой в размере 30 долларов США и годовой платой в размере 300 долларов США, предоставляющий дополнительные функции вывода и запросов DeepSearch, включая неограниченные услуги по созданию изображений.
Способность рассуждения Grok 3 опережает DeepSeek R1
В слепом тесте LMSYS, известном как Chatbot Arena, Grok 3 занял первое место по различным аспектам, таким как код и ответ на команды.
Будучи продуктом, созданным на базе 200 000 видеокарт, производительность Grok 3 на уровне сбоев по-прежнему доказывает, что закон масштабирования все еще действует.
По сравнению с DeepSeek, который приносит высокую прибыль при низких затратах, Grok 3 фокусируется на том, чтобы «сделать чудеса с большой силой».
На этот раз в Grok 3, который представляет возможности рассуждения, основное внимание уделяется более гибкому распределению вычислительных ресурсов в реальном времени, чтобы обеспечить наиболее разумное использование вычислительных ресурсов при сохранении качества рассуждений.
В то время рассуждения Грока 2 уже достигли уровня SOTA. После нескольких итераций способность модели к обобщению значительно улучшилась. Grok 3 в очередной раз обновил свой рекорд на последнем соревновании AIME.
Однако, очевидно, недостаточно иметь сильные способности к рассуждению. Только будучи быстрым, безжалостным и точным, вы можете участвовать в инволюции больших моделей. На пресс-конференции инженерная группа продемонстрировала два кейса.
Одним из них был запрос на создание кода 3D-анимации, который запускался с Земли на Марс и обратно на Землю. Грок думал 19 секунд и подробно описывал свой мыслительный процесс, включая использование Python для рисования и NumPy для вычислений.
Другой пытается убедить Грока объединить две игры «Тетрис» и «Bejeweled» для создания новой игры.
К сожалению, Грок потерпел два последовательных опрокидывания, как только он вышел. Даже Маск, оглядываясь назад на плохую демонстрационную сессию на экране, не мог не произнести «о боже!» в смущении.
Однако в последующих демонстрациях были представлены и нормальные случаи (не будь демка готова).
И некоторые счастливчики сети уже играли в Grok 3.
▲Фото от X пользователя сети @jesselaunz
DeepSearch здесь, чтобы произвести революцию в поисковых системах
Блокбастер этого обновления — DeepSearch на базе Grok 3, известный как поисковая система нового поколения. Модель будет работать автономно, как агент, и понимать намерения, стоящие за вопросами пользователя, экономя время, потраченное на Google.
Во время живой демонстрационной сессии инженер задал Гроку 3 интересный вопрос: спрогнозировать количество побед и поражений в NCAA «Мартовское безумие», то есть результаты игр на всех уровнях.
Это мероприятие было организовано Баффетом в 2014 году со ставкой до одного миллиарда долларов США, и ставка заключалась в том, чтобы обанкротить Баффета. Исторически никто не добился успеха и даже близко не приблизился к этому, потому что, даже если эксперты это предсказывают, после первых нескольких раундов происходит масса ошибок.
▲ Таблица матчей NCAA 2023 года
Тогда это была маркетинговая кампания. Ведь вероятность выигрыша была очень мала, почти одна на сто миллиардов, что было в принципе невозможно. Вполне разумно оставить эту проблему на усмотрение Grok 3.
Помимо цитируемых материалов, были также структурированы полученные ответы. Вступительное введение, базовые знания, аналитические таблицы и заключительные замечания вполне полны.
Основное внимание в поиске уделяется тому, как перепроверить различные источники информации. Grok 3 решает эту задачу, создавая панель подзадач, позволяющую пользователям отслеживать текущие задачи в режиме реального времени, чтобы гарантировать доступность и надежность ответов.
Таким образом, агент может искать самостоятельно в течение десяти минут, что само по себе эквивалентно одному часу поиска, что может эффективно снизить рабочую нагрузку.
В конце концов, Grok 3 также подарил то, что, как он думал, будет чемпионатом NCAA 2025 года. Март еще не наступил, давайте подождем и посмотрим, сбудется ли его «пророчество Бога».
Что касается того, как испытать Grok 3, официальные лица заявили, что подписчики X Premium+ будут первыми, кто его испытает, а другие расширенные функции будут включены в новый план xAI — SuperGrok.
SuperGrok стоит 30 долларов в месяц и 300 долларов в год и предоставляет только дополнительные возможности вывода и запросов DeepSearch, а также включает неограниченные услуги по созданию изображений.
Джарвис здесь? Еще не совсем здесь
Буквально вчера вечером Шивон Зилис рассказала о своем разговоре с Арой, помощником по искусственному интеллекту, работающим на Grok 3, и сказала, что это было самое неожиданное достижение в жизни.
Это просто увеличило всеобщие ожидания от голосового режима. Перед пресс-конференцией Маск объявил, что голосовой режим будет запущен только в течение недели, а это также означало, что шансов на демонстрационную сессию не было.
Однако во время прямого эфира Маск также заявил, что это будет один из лучших опытов Грока. В конце конференции голосовая модель также озвучила мужской голос, который звучал вполне по-человечески.
Эта небольшая заметка Reuters вызвала большое любопытство, и во время сессии контроля качества посыпались вопросы о голосовом режиме. Конечно, теперь есть и непременная пытка души: «Это открытый исходный код?»
контроль качества
Вопрос: Когда будет запущена голосовая модель Grok, она основана на преобразовании текста в речь или это модель, которая может понимать человеческую речь и реагировать напрямую?
О: Grok в основном понимает, что говорят люди, и сначала выпустит раннюю версию в течение недели, после чего последуют быстрые итеративные обновления.
Вопрос: Когда будет запущен Grok API?
Ответ: Он будет запущен в ближайшие несколько недель и будет включать в себя модели вывода и возможности глубоких исследований.
Вопрос: Может ли Грок помнить интерактивные разговоры?
Ответ: Мы усердно работаем над развитием этой функции, но она еще не полностью завершена.
Вопрос: Будет ли модель Grok иметь открытый исходный код? Ответ: Когда Grok 3 станет зрелым и стабильным, примерно через несколько месяцев Grok 2 станет открытым исходным кодом?
Вопрос: Что было самым сложным в работе над этим проектом?
Ответ: Самая большая задача — обучить всю модель на массивном H100 и поддерживать согласованность.
# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo