OpenAI демонстрирует свою «прорывную» модель рассуждения o3 следующего поколения

21 декабря, 2024 Дядя Влад

Сэм Альтман описывает возможности модели o3 — ОпенАИ

В финале прямой трансляции «12 дней OpenAI » генеральный директор Сэм Альтман представил следующую базовую модель и преемницу недавно анонсированного семейства логических ИИ o1 , получивших названия o3 и 03-mini.

И нет, вы не сходите с ума — OpenAI пропустил o2, видимо, чтобы не нарушать авторские права британского телекоммуникационного провайдера O2.

Хотя новые модели o3 пока не представлены широкой публике и неизвестно, когда они будут включены в ChatGPT , теперь они доступны для тестирования исследователями безопасности.

o3, наша последняя модель рассуждения, представляет собой прорыв, поскольку в наших самых сложных тестах была улучшена ступенчатая функция. мы начинаем испытания на безопасность & красная команда сейчас. https://t.co/4XlK1iHxFK
— Грег Брокман (@gdb) 20 декабря 2024 г.

Семейство o3, как и предшествовавшие ему модели o1, работают иначе, чем традиционные генеративные модели, поскольку они проводят внутреннюю проверку ответов перед представлением их пользователю. Хотя этот метод замедляет время ответа модели от нескольких секунд до нескольких минут, ее ответы на сложные научные, математические и программные запросы, как правило, более точные и надежные, чем те, которые вы получаете от GPT-4 . Кроме того, модель фактически способна прозрачно объяснить свои рассуждения о том, как она пришла к результату.

Пользователи также могут вручную регулировать количество времени, которое модель тратит на рассмотрение проблемы, выбирая между низким, средним и высоким уровнем вычислений, причем самый высокий параметр дает наиболее полные ответы. Заметьте, такое представление обходится недешево. Сообщается, что обработка на высоких вычислительных мощностях будет стоить тысячи долларов за задачу, написал в пятницу в X post соавтор ARC-AGI Франсуа Шолле.

Сегодня OpenAI анонсировала o3, свою модель рассуждения следующего поколения. Мы работали с OpenAI, чтобы протестировать его на ARC-AGI, и считаем, что это представляет собой значительный прорыв в адаптации ИИ к новым задачам.
Он набирает 75,7% по получастной оценке в режиме малой вычислительной мощности (20 долларов за задачу… pic.twitter.com/ESQ9CNVCEA
— Франсуа Шолле (@fchollet) 20 декабря 2024 г.

Сообщается, что новое семейство моделей рассуждения обеспечивает значительно улучшенную производительность по сравнению с моделью o1, которая дебютировала в сентябре , в самых сложных тестах производительности в отрасли. По данным компании, o3 превосходит своего предшественника почти на 23 процентных пункта в тесте кодирования SWE-Bench Verified и набирает более чем 60 баллов выше, чем o1 в тесте Codeforce. Новая модель также набрала впечатляющие 96,7% в тесте по математике AIME 2024, пропустив всего один вопрос, и превзошла экспертов-людей в GPQA Diamond, набрав 87,7%. Еще более впечатляюще то, что 03, как сообщается, решил более четверти задач, представленных в тесте EpochAI Frontier Math, тогда как другие модели с трудом могли правильно решить более 2% из них.

OpenAI отмечает, что модели, представленные в пятницу, все еще являются ранними версиями и что «окончательные результаты могут измениться по мере дальнейшего обучения». Компания дополнительно включила новые меры безопасности « сознательного согласования » в методологию обучения o3. Модель рассуждения o1 продемонстрировала тревожную привычку пытаться обмануть оценщиков с большей скоростью, чем обычные ИИ, такие как GPT-4o, Gemini или Claude; OpenAI считает, что новые ограничения помогут свести к минимуму эти тенденции в o3.

Члены исследовательского сообщества, желающие попробовать o3-mini самостоятельно, могут подписаться на доступ всписке ожидания OpenAI .