Только что OpenAI выпустила o3! Выпускники Пекинского университета снова преодолевают ограничения искусственного интеллекта и участвуют в исследованиях и разработках.

21 декабря, 2024 Дядя Влад

Только что OpenAI объявила о финале гала-концерта AI Spring Festival в конце года.

Модели серии o3, выпущенные на этот раз, представляют собой итерационные версии o1. Учитывая, что могут возникнуть конфликты авторских прав или товарных знаков с британским оператором связи O2, OpenAI решила пропустить наименование «o2» и сразу принять «o3».

По этой причине генеральный директор OpenAI Сэм Альтман даже посмеялся над путаницей компании в названиях моделей. Оказывается, вы это тоже знаете.

Конференцию вели Сэм Альтман, старший вице-президент по исследованиям Марк Чен и научный сотрудник Хунъюй Рен.

Стоит отметить, что Рен Хунъю окончил Пекинский университет со степенью бакалавра. Он внес фундаментальный вклад в o1, а также является основным разработчиком GPT-4o. Он имеет обширный опыт исследовательской стажировки в Apple, Microsoft и Nvidia.

Серия o3 включает в себя две модели-блокбастеры:

OpenAI o3: флагманская версия с высокой производительностью
OpenAI o3 mini: легкая модель, но более быстрая и дешевая, с упором на экономическую эффективность

Не спешите радоваться, поскольку серия o3 в настоящее время недоступна для обычных пользователей. OpenAI планирует сначала открыть приложения для внешнего тестирования безопасности, а официальный релиз ожидается в январе следующего года.

Теперь заинтересованные друзья могут подать заявку:
https://openai.com/index/early-access-for-safety-testing/

о3 Большой скачок в производительности, механическое запоминание? не существует

«Бумажные параметры» модели o3 были улучшены во всех аспектах.

Во-первых, в тесте SweepBench Verified модель o3 достигла точности примерно 71,7%, опередив модель o1 на целых 20%.

Переходя к сфере кодирования, o1 набрал 1891 балл на платформе соревнований по программированию Codeforces. А o3 может набрать до 2727 очков при беге на полной скорости и увеличении времени размышления.

Для справки, балл демонстратора Марка Чена составляет всего 2500, что в полной мере демонстрирует, что модель o3 способна приблизиться к профессиональным программистам-человекам или даже превзойти их.

В области математики o3 также показывает хорошие результаты.

В тесте Американского математического конкурса AIME 2024 o3 полностью превзошел o1 на 83,3% с точностью 90,67%.

В тесте GPQA Diamond, который измеряет способность отвечать на научные вопросы докторского уровня, o3 набрал 87,7%, а o1 – только 78%.

Какая концепция? Знаете, даже доктора наук в этой области часто могут достичь точности лишь около 70% в пределах своей компетенции.

Столкнувшись с ситуацией, когда текущий эталонный тест близок к полным баллам, OpenAI представила новый математический тест EpochAI Frontier Math.

Это считается одним из самых сложных тестов по математике, доступных в настоящее время, и содержит чрезвычайно сложные вопросы. Даже профессиональные математики могут потратить часы или даже дни на решение одной задачи.

В настоящее время точность всех существующих моделей в этом тесте составляет менее 2%, но при длительном тесте с высокой вычислительной мощностью o3 может набрать балл более 2457.

Говоря об AGI, Святом Граале в области искусственного интеллекта, мы должны упомянуть ARC-AGI, эталонный тест, специально измеряющий AGI.

ARC-AGI был разработан Франсуа Шолле, отцом Кераса, и в основном проверяет способность модели к рассуждению посредством графических логических рассуждений.

Когда ведущий задал другому ведущему, Марку Чену, импровизированный вопрос, последний обозначил требования задания: подсчитать количество маленьких цветных квадратов в каждом желтом квадрате и соответствующим образом сгенерировать соответствующую рамку.

Эти задачи, простые для людей, являются сложной проблемой для ИИ.

Более того, каждая задача ARC-AGI требует разных навыков и намеренно избегает дублирования, что полностью исключает возможность использования модели «механического заучивания» и действительно проверяет способность модели учиться и применять новые навыки в реальном времени.

Теперь o3 набирает 75,7 баллов в конфигурации с низкой вычислительной мощностью. Когда o3 попросили подумать дольше и увеличить свою вычислительную мощность, o3 набрал 87,5% в том же скрытом зарезервированном наборе, что намного превзошло большинство реальных людей.

Смысл OpenAI в том, что o3 приблизит нас на один шаг к AGI.

Выпущен o3 mini, быстрее и дешевле

В сентябре этого года OpenAI выпустила o1 mini, который обладает мощными математическими и программными возможностями по чрезвычайно низкой цене.

Продолжая это направление развития, выпущенный сегодня o3 mini также сохраняет вышеуказанные характеристики. Отныне модель открыта для тестирования приложений только для исследователей безопасности, крайний срок — 10 января.

o3 mini поддерживает три режима времени вывода: низкий, средний и высокий.

Пользователи могут гибко настраивать время обдумывания модели в зависимости от сложности задачи. Например, сложные проблемы могут потребовать больше времени на обдумывание, тогда как простые проблемы могут быть решены быстро.

Судя по первой партии результатов оценки, в рейтинге Codeforces Elo, который измеряет способности к программированию, по мере увеличения времени вывода его показатель Elo продолжает расти, превосходя o1 mini при среднем времени вывода.

Ведущий попросил модель создать генератор и исполнитель кода с использованием Python — скрипта, который запускает сервер и создает локальный пользовательский интерфейс. Пользователи могут ввести запрос кода в текстовое поле, и система отправит запрос в API в трех расширенных режимах для генерации и выполнения соответствующего кода.

Например, когда его попросили сгенерировать код, содержащий OpenAI и случайные числа, режим среднего вывода o3 mini быстро завершил процесс.

Кроме того, он может тестировать себя. Например, в тесте набора данных GPQA модель завершила оценку сложных наборов данных в режиме низкого вывода.

Он загружает исходный файл, определяет CSS, ответы и варианты, систематизирует вопросы и ответы и, наконец, выставляет баллы, выполняя самооценку всего за одну минуту с точностью 61,62%.

В области математики o3 mini также показывает хорошие результаты.

В математическом тесте AIME режим низкого вывода достиг производительности, сравнимой с o1 mini, а режим среднего вывода превзошел o1 mini с меньшей задержкой.

Кроме того, согласно мнению разработчиков, мини-модель o3 также будет полностью поддерживать функции API, такие как вызовы функций, структурированный вывод и инструкции разработчика.

Теперь канал приложений для o3 mini и o3 открыт. Ожидается, что o3 mini будет доступен всем пользователям в январе, а полная версия o3 будет выпущена позже.

В конце концов, на этой 12-дневной конференции в конце года OpenAI наконец продемонстрировала свой козырь.

Можно сказать, что выпуск модели o3 стал неожиданным, но разумным завершением этой пресс-конференции, которая когда-то оказалась в ловушке дилеммы «открываться по максимуму и идти по минимуму».

Менее чем за 3 месяца OpenAI завершила итерационное обновление модели o1.

Переход от серии GPT к серии o, очевидно, является тщательно продуманным стратегическим выбором OpenAI, и последующие результаты также доказывают, что это решение является мудрым.

Однако стоит отметить, что генеральный директор Microsoft Сатья Наделла недавно заявил в подкасте, что OpenAI примерно на два года опережает своих конкурентов в области искусственного интеллекта.

Именно эта относительно расслабленная конкурентная среда позволяет OpenAI сосредоточиться на разработке ChatGPT.

Однако текущая ситуация меняется как в нападении, так и в обороне.

Отчет Menlo Ventures показывает, что рыночная доля ChatGPT постепенно вытесняется другими конкурентами, упав с 50% в 2023 году до 34% в 2024 году.
От «стандартного» к «необязательному» ореол ChatGPT тускнеет.

Причина этого очевидна. «Ров» OpenAI дюйм за дюймом заполняется бешеными конкурентами.

Данные исследований Искусственного Анализа ясно показывают, что такие производители, как Anthropic и Google, последовательно разрабатывают новые модели с производительностью, близкой к GPT-4, OpenAI o1 и другим моделям.

Более того, по мере того, как закон масштабирования достигает своего потолка и основные руководители уходят один за другим, дивиденды, которые OpenAI получила, полагаясь в прошлом на одну базовую модель, тают ускоренными темпами.

В отрасли, где все рассчитывается на каждом шагу, даже выпущенной сегодня модели o3 будет сложно снова создать двухлетнее окно.

Особенно когда новые модели, такие как Grok-3 и Claude, набирают обороты, времени для OpenAI может остаться не так много.

Просыпайтесь, лучшим производителем ИИ в этом году по-прежнему остается OpenAI, но в следующем году ответов может быть бесчисленное множество из-за разных направлений ИИ.

К счастью, мы, пользователи, выиграем от этих изменений.

# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo