OpenAI демонстрирует свою «прорывную» модель рассуждения o3 следующего поколения

Сэм Альтман описывает возможности модели o3
ОпенАИ

В финале прямой трансляции «12 дней OpenAI » генеральный директор Сэм Альтман представил следующую базовую модель и преемницу недавно анонсированного семейства логических ИИ o1 , получивших названия o3 и 03-mini.

И нет, вы не сходите с ума — OpenAI пропустил o2, видимо, чтобы не нарушать авторские права британского телекоммуникационного провайдера O2.

Хотя новые модели o3 пока не представлены широкой публике и неизвестно, когда они будут включены в ChatGPT , теперь они доступны для тестирования исследователями безопасности.

Семейство o3, как и предшествовавшие ему модели o1, работают иначе, чем традиционные генеративные модели, поскольку они проводят внутреннюю проверку ответов перед представлением их пользователю. Хотя этот метод замедляет время ответа модели от нескольких секунд до нескольких минут, ее ответы на сложные научные, математические и программные запросы, как правило, более точные и надежные, чем те, которые вы получаете от GPT-4 . Кроме того, модель фактически способна прозрачно объяснить свои рассуждения о том, как она пришла к результату.

Пользователи также могут вручную регулировать количество времени, которое модель тратит на рассмотрение проблемы, выбирая между низким, средним и высоким уровнем вычислений, причем самый высокий параметр дает наиболее полные ответы. Заметьте, такое представление обходится недешево. Сообщается, что обработка на высоких вычислительных мощностях будет стоить тысячи долларов за задачу, написал в пятницу в X post соавтор ARC-AGI Франсуа Шолле.

Сообщается, что новое семейство моделей рассуждения обеспечивает значительно улучшенную производительность по сравнению с моделью o1, которая дебютировала в сентябре , в самых сложных тестах производительности в отрасли. По данным компании, o3 превосходит своего предшественника почти на 23 процентных пункта в тесте кодирования SWE-Bench Verified и набирает более чем 60 баллов выше, чем o1 в тесте Codeforce. Новая модель также набрала впечатляющие 96,7% в тесте по математике AIME 2024, пропустив всего один вопрос, и превзошла экспертов-людей в GPQA Diamond, набрав 87,7%. Еще более впечатляюще то, что 03, как сообщается, решил более четверти задач, представленных в тесте EpochAI Frontier Math, тогда как другие модели с трудом могли правильно решить более 2% из них.

OpenAI отмечает, что модели, представленные в пятницу, все еще являются ранними версиями и что «окончательные результаты могут измениться по мере дальнейшего обучения». Компания дополнительно включила новые меры безопасности « сознательного согласования » в методологию обучения o3. Модель рассуждения o1 продемонстрировала тревожную привычку пытаться обмануть оценщиков с большей скоростью, чем обычные ИИ, такие как GPT-4o, Gemini или Claude; OpenAI считает, что новые ограничения помогут свести к минимуму эти тенденции в o3.

Члены исследовательского сообщества, желающие попробовать o3-mini самостоятельно, могут подписаться на доступ всписке ожидания OpenAI .