OpenAI внезапно выпустила цепочку мышления o3-mini! Первое шоу было поставлено под сомнение. По сравнению с DeepSeek R1 в реальных измерениях разрыв слишком очевиден.

7 февраля, 2025 Дядя Влад

Давайте еще раз поблагодарим DeepSeek.

Сегодня рано утром OpenAI объявила о выпуске мысленной цепочки последней модели серии o3-mini.

Проще говоря, пользователи теперь могут видеть «мыслительный» процесс o3-mini и o3-mini(high) и иметь более четкое представление о том, как модель рассуждает и приходит к выводам.

Ученый-исследователь OpenAI Ноам Браун опубликовал на платформе X:

«Перед выпуском o1-Preview мы представляем вам Наблюдение за работой Цепочки мыслей (ЦТ) в реальном времени часто становится для них моментом «ага», заставляющим их осознать, что это будет что-то большое.

Хотя это не оригинальные мыслительные цепочки, они очень близки. Я так рада, что мы можем поделиться этим опытом со всем миром! "

Затем он уточнил дальше:

«o3-mini — это первая большая языковая модель, которая может последовательно и точно отвечать на задачи «крестики-нолики». Хотя обобщенная цепочка мышления кажется немного запутанной, с правой стороны вы можете видеть, что модель наконец-то успешно нашла правильный ответ».

картина

Это публично, но не полностью публично.

По данным зарубежных СМИ TechCrunch, OpenAI по-прежнему не будет полностью раскрывать полные этапы рассуждений o3-mini, но заявила, что «нашла точку баланса» и o3-mini теперь может «думать свободно», а затем составить более подробное изложение рассуждений.

До этого, из соображений конкуренции, OpenAI не раскрывала полностью этапы вывода o3-mini и его предшественников (o1 и o1-mini), предоставляя пользователям только сводные выводы, и даже эти сводки иногда были неточными.

Более того, чтобы повысить ясность и безопасность, OpenAI также вводит дополнительный этап постобработки. Модель сначала проверяет «цепочку мышления», чтобы исключить потенциально небезопасный контент и умеренно упростить сложные концепции.

В отчете цитируется представитель OpenAI, который объяснил: «Этот этап постобработки также поддерживает пользователей, не говорящих по-английски, и гарантирует, что они смогут просматривать «цепочку мыслей» на своем родном языке, что делает процесс более дружелюбным и понятным».

Фактически, прозрачность рассуждений становится важным конкурентным преимуществом в области ИИ. Разрешение ИИ отображать полные этапы рассуждения может не только повысить доверие пользователей, но и облегчить исследование и совершенствование ИИ.

Однако цепочка общественного мышления может быть использована конкурентами, например, для извлечения логики рассуждений модели с помощью технологии дистилляции. На мероприятии AMA (Спроси меня что-нибудь) на Reddit на прошлой неделе директор по продукту OpenAI Кевин Вейл сказал:

«Мы работаем над тем, чтобы показать больше процессов рассуждения, чем сейчас — [это изменение] скоро произойдет. Пока не решено, показывать ли полную «цепочку мышления» из-за проблем с конкуренцией. Но мы также знаем, что пользователи (особенно опытные пользователи) хотят видеть больше деталей, поэтому мы найдем правильный баланс. "

Напротив, цепочка мышления DeekSeek R1 безоговорочно открыта и прозрачна, а ее глубокий мыслительный процесс заслужил похвалу многих пользователей сети. «Принудительная» корректировка OpenAI на этот раз, очевидно, является ответом на давление со стороны DeepSeek и других компаний, занимающихся искусственным интеллектом.

X Нетизен @thegenioo немедленно протестировал это обновление цепочки мышления. Он сказал: «Новая версия не только обеспечивает более плавный пользовательский интерфейс, но и делает процесс мышления модели более прозрачным.

Ниже приводится сравнение мышления DeepSeek R1 и OpenAI o3-mini(high) по одной и той же проблеме.

«Сколько е в дипсииииике»

ДипСик Р1

картина

OpenAI o3-mini(высокий)

«Предположим, есть пруд с бесконечной водой. Есть два пустых чайника емкостью 5 литров и 6 литров соответственно. Проблема в том, как получить из пруда 3 литра воды, используя только эти два чайника».

▲Глубокий поиск R1

OpenAI o3-mini(высокий)

«Мужчина купил курицу за 8 юаней и продал ее за 9 юаней. Потом он подумал, что это невыгодная сделка, поэтому выкупил ее обратно за 10 юаней и продал другому человеку за 11 юаней. Спроси его, сколько он заработал?»

▲Глубокий поиск R1

▲OpenAI o3-mini(высокий)

Прочитав приведенные выше случаи, мы обнаружим, что две модели имеют совершенно разные «стили мышления».

DeepSeek R1 больше похож на студента-гуманитария. Его процесс рассуждений является пошаговым, а мышление тщательным и тонким. Преимущество этого в том, что результаты более надежны и меньше логических отклонений. o3-mini(high) больше похож на студента-естественника. Процесс рассуждения краток и ясен и направлен прямо к сути проблемы.

Эта разница дополнительно отражается на скорости отклика. DeepSeek R1 имеет относительно долгое время размышления, тогда как o3-mini (высокий) быстрее.

Что касается ответов, то ответы DeepSeek R1 часто более полные и подробные. Например, первый тестовый вопрос также будет включать в себя продуманные аннотации. Напротив, o3-mini(high) кажется «деловым».

Как упоминалось в начале, то, что выпустил o3-mini на этот раз, не было полной версией цепочки мышления, поэтому после того, как оно было открыто публике, оно также вызвало массу сомнений.

Перед лицом разногласий генеральный директор OpenAI Сэм Альтман также быстро объяснил о платформе X: «Мы пытаемся организовать исходную цепочку мыслей, чтобы сделать ее более читабельной, и переводить ее, когда это необходимо, но стараемся сохранить ее оригинальный стиль».

Однако, как многозначительно заметил один пользователь сети: без DeepSeek сможем ли мы увидеть хотя бы «кастрированную версию» мыслительной цепочки o3-mini? Боюсь, ответ очевиден.

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo