OpenAI поздно ночью контратакует DeepSeek! Срочно запустил o3-mini бесплатно Поэкспериментировав, нашел глюк.

9 февраля, 2025 Дядя Влад

Во время праздника Весны DeepSeek, загадочная сила с Востока, разорвала поле общественного мнения в Кремниевой долине.

С одной стороны, шло лоббирование и подавление со стороны таких производителей, как OpenAI и Anthropic, но с другой стороны, они стали свидетелями нелестного отношения своих союзников. Всего за одну ночь американские платформы облачных вычислений, такие как Microsoft, NVIDIA и Amazon, протянули оливковые ветви DeepSeek R1.

Столкнувшись с продолжающимся ростом популярности DeepSeek, самой мощной контрмерой будет полагаться на силу.

Сегодня рано утром OpenAI официально представила модель серии OpenAI o3-mini.

Являясь преемником модели o1-mini, o3-mini является последней и наиболее экономичной моделью в текущей серии выводов. Ученый-исследователь OpenAI Ноам Браун опубликовал на платформе X:

«Мы очень рады запуску o3-mini, в том числе открытию его для бесплатных пользователей. По многочисленным оценкам он превосходит o1. Мы совершаем революцию в отношениях между стоимостью и интеллектом. Интеллектуальные модели будут продолжать совершенствоваться, а стоимость получения того же уровня интеллекта будет продолжать снижаться».

Конкретные особенности моделей серии o3-mini заключаются в следующем:

o3-mini ориентирован на быстрое мышление, а o3-mini (высокий) хорош в программировании и логике.
Поддерживает онлайн-поиск и может получать и обобщать информацию из Интернета в режиме реального времени.
Данные обучения тщательно проверяются, а показатели соответствия требованиям безопасности повышаются.

Что касается платных пользователей, пользователи ChatGPT Plus, Team и Pro теперь могут использовать o3-mini, а корпоративная версия будет доступна через неделю.

OpenAI увеличила дневной лимит сообщений для пользователей Plus и Team с 50 для o1-mini до 150. Пользователи Pro могут пользоваться неограниченным доступом к o3-mini и o3-mini-high для удовлетворения более интенсивных или более профессиональных потребностей в рассуждениях.

В то же время это также первый раз, когда OpenAI открыла возможность использования моделей вывода для бесплатных пользователей. Вы можете использовать их, выбрав кнопку «Причина» под полем ввода сообщения ChatGPT.

Стоит отметить, что OpenAI o3-mini интегрирует функцию поиска, которая позволяет получать последние ответы в режиме реального времени и прикреплять соответствующие веб-ссылки, чтобы облегчить пользователям проведение углубленных исследований. В настоящее время это функция прототипа, и в будущем она будет улучшаться и расширяться для большего количества моделей вывода.

o3-mini — это первая небольшая модель вывода OpenAI, которая поддерживает расширенные функции, такие как вызовы функций, структурированный вывод и сообщения разработчика, и может использоваться «из коробки».

Как и o1-mini и o1-preview, o3-mini поддерживает потоковую передачу. Разработчики также могут выбирать между низкой, средней и высокой степенью вывода в соответствии с конкретными потребностями, а также выбирать между обработкой сложных задач и скоростью ответа.

Тесты показывают, что среднее время отклика o3-mini составляет 7,7 секунды, что на 24% быстрее, чем у o1-mini 10,16 секунды. При этом в экспертной оценке 56% рецензентов были более склонны выбрать ответ o3-mini, а доля основных ошибок при решении сложных практических задач также снизилась на 39%.

В системной карточке o3-mini упоминалось, что во время недельной оценки семь экспертов по биологии человека провели несколько раундов диалога с o3-mini (предварительно обученная версия) по сложным биологическим вопросам.

Эксперты сходятся во мнении, что даже без доступа к Интернету возможности вопросов и ответов o3-mini по-прежнему мощны и могут не только ускорить процесс поиска информации, но и предоставить информацию, которую трудно найти в Интернете.

Кроме того, эксперты также обнаружили, что модель хорошо справляется с обзором литературы и ответами на вопросы, а также позволяет быстро и всесторонне разобраться в литературе. Однако следует также отметить, что у модели иногда возникают галлюцинации, приводящие к отклонениям в подробной информации.

В ходе оценки основных компетенций компания o3-mini показала выдающийся табель успеваемости. В режиме расширенного рассуждения он достиг точности 87,3% на соревновании по математике AIME 2024 года.

Научное задание уровня PhD и ответы GPQA Diamond набрало 77,2%.

На платформе соревновательного программирования Codeforces o3-mini (высокий) даже получил оценку ELO 2130.

В области разработки программного обеспечения o3-mini также показывает хорошие результаты.

В проверочном тесте SWE-bench точность в расширенном режиме вывода достигла 49,3%, при использовании внутреннего инструментария этот показатель вырос до 61%. Даже при использовании безагентной среды с открытым исходным кодом o3-mini по-прежнему сохраняет процент проходимости на уровне 39%.

Процент выигрышей у o3-mini (средний) значительно выше, чем у o1-mini в сценариях с несколькими задачами, будь то задачи STEM, задачи, не относящиеся к STEM, или когда пользователь ограничен во времени. o1-mini более средний, но не такой выдающийся, как o3-mini (средний), с точки зрения процента побед и частоты ошибок.

Модель o3-mini использует метод обучения «Цепочка мыслей», который позволяет модели рассуждать о спецификациях безопасности, прежде чем отвечать пользователю. Таким образом, ее производительность в тестах безопасности и защиты от взлома была значительно улучшена.

Системная карта показывает, что o3-mini обладает отличными возможностями контроля рисков.

Модель представляет средние риски с точки зрения убеждения, ХБРЯ (химического, биологического, радиологического, ядерного) и автономии модели, сохраняя при этом низкие риски с точки зрения кибербезопасности, такие как неспособность эффективно выполнять сложные хакерские задачи и ограниченные возможности против реальных киберугроз.

Кроме того, o3-mini находится на одном уровне с GPT-4o в выявлении и отклонении опасных запросов, при этом значительно уменьшая ошибочную оценку безобидных запросов, эффективно решая проблему чрезмерной осторожности.

Что касается контроля иллюзий, тесты, основанные на наборе данных PersonQA, показывают, что скорость генерации информации об ошибках снизилась до контролируемого уровня в 14,8%.

Возможность межъязыковой обработки является одним из важных показателей практичности больших моделей.

Тест на способность многоязычной обработки o3-mini охватывает 14 основных языков, включая арабский, китайский, французский, немецкий, японский и испанский, что значительно улучшено по сравнению с o1-mini.

Стоимость o3-mini значительно ниже o1 (примерно в 13,6 раз дешевле), а стоимость кэшированного ввода (Cached Input) составляет половину стоимости стандартного ввода.

В авторской колонке газеты также появилось знакомое имя – Хунъю Рен.

Рен Хунъю окончил Пекинский университет со степенью бакалавра. Он внес фундаментальный вклад в o1, а также является основным разработчиком GPT-4o. Он имеет обширный опыт исследовательской стажировки в Apple, Microsoft и NVIDIA.

Одни разговоры и никакой практики, мы сразу же протестировали две версии o3-mini и o3-mini(high), которые только что были выпущены.

Сначала протестируйте новую функцию поиска o3-mini и позвольте ей запросить последние финансовые новости OpenAI. Своевременность хорошая, и ее можно точно проследить до исходного отчета Wall Street Journal.

Затем мы бросили головоломку «1=5, 2=15, 3=215, 4=2145, затем 5=?». Есть два решения этого вопроса: с точки зрения головоломки, поскольку 1=5, то с точки зрения математической логики ответ должен быть 21485. Очевидно, o3-mini тоже не дал правильного ответа.

Для дальнейшего тестирования более мощного o3-mini (high) мы поставили статистический вопрос

"100 человек ответили на пять вопросов теста. На первый вопрос правильно ответили 81 человек, на второй вопрос – 91 человек, на третий вопрос – 85 человек, на четвертый вопрос – 79 человек, на пятый вопрос – 74 человека. Прошедшими считаются те, кто правильно ответил на три и более вопросов. Тогда из этих 100 человек сдало не менее ( ) человек".

Процесс «мышления» серии o3-mini можно отобразить, но в отличие от мышления в стиле «мысли» DeepSeek R1, мыслительный процесс o3-mini (high) более краток и ясен.

X Нетизен задал вопрос о длине пути градиентного потока выпуклых функций, и o3-mini(high) успешно выдержал испытание.

Пользователи сети попросили его создать классическую историю о черепахе и зайце, но при этом нужно было соблюдать правило, согласно которому первая буква каждого слова совпадала с последней буквой предыдущего слова, и оно было ограничено 100 словами.

На просьбу составить рассказ о черепахе и зайце, следовать правилу «последняя буква первого слова равна первой букве второго слова» и контролировать длину в пределах 100 слов, o3-mini(high) также дал проходной ответ.

Судя по логике истории, хотя некоторые предложения немного прямолинейны, история все же ясно передает основной смысл черепахи и зайца.

Конечно, есть пользователи сети, которые хотят попробовать и попросить o3-mini бросить вызов главной задаче математики — гипотезе Римана.

Беспомощный o3-mini не обманулся и четко указал на то, что гипотеза Римана до сих пор является нерешенной проблемой в математике, поэтому не может дать правильного доказательства или контрпримера.

Фактически, в последние несколько лет ИИ проникает в нашу жизнь с угрожающей скоростью.

От ChatGPT в 2023 году до Sora в 2024 году и затем до DeepSeek в 2025 году — каждый год происходят новые сюрпризы, а технологические прорывы в области искусственного интеллекта становятся киберновогодними товарами во время Весеннего фестиваля.

Рост популярности DeepSeek шокировал отрасль. Крупнейшие гиганты искусственного интеллекта внешне держатся на расстоянии от DeepSeek, но на самом деле они тайно признают и стремятся воспроизвести «новый прогресс», достигнутый компанией в оптимизации инфраструктуры.

Компания Meta даже создала команду для изучения ее технологии кадр за кадром.

Однако в отрасли существует консенсус в отношении того, что DeepSeek сложно повлиять на необходимые инвестиции в инфраструктуру искусственного интеллекта.

Это суждение было быстро подтверждено на рынке капитала. Цукерберг подтвердил свой план инвестировать дополнительные 60-65 миллиардов долларов США в капитал во время внутренней встречи. OpenAI также сообщила, что ведет переговоры об огромном финансировании с SoftBank, и ее послеинвестиционная оценка может достичь 300 миллиардов долларов США.

OpenAI o3-mini родился и вырос здесь, в определенной степени в результате предыдущего инвестиционного бума в инфраструктуру искусственного интеллекта.

Но что касается этой легкой модели, o3-mini также указывает на более глубоком уровне, что конкуренция в индустрии искусственного интеллекта смещается от масштаба к эффективности, и новым предложением для разработки станет то, как создать наибольшую ценность при оптимальных затратах.

Для OpenAI нетрудно восстановить общественное мнение за короткий период времени. Чтобы получить реальное преимущество первопроходца в этой все более жесткой конкуренции, одних только технологических прорывов уже недостаточно, и нельзя игнорировать ценность имиджа технологического бренда.

В частности, DeepSeek, известный как настоящий OpenAI, начал прочно занимать экологическую нишу лидера ИИ с открытым исходным кодом.

Чем выше стена с закрытым исходным кодом, тем ценнее становится сила открытого исходного кода.

В 2025 году настоящая битва между открытым и закрытым исходным кодом, возможно, только начнется.

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo