Самая сильная модель OpenAI оказалась подделкой! Задавайте тестовые вопросы заранее, ведущие математики остаются в неведении

22 января, 2025 Дядя Влад

Недавно OpenAI в очередной раз попала в бурю общественного мнения.

Инцидент произошел из-за разоблачения на форуме LessWrong. Подрядчик Epoch AI по имени Meemi сообщил, что OpenAI не только предоставила финансовую поддержку тесту FrontierMath, но и получила привилегированный доступ к банку тестовых вопросов.

И это может быть важной причиной того, что производительность o3 значительно улучшилась за короткий период времени. Но эта информация не была объявлена Epoch AI до тех пор, пока 20 декабря прошлого года не был выпущен o3.

Как только эта новость появилась, она сразу же вызвала бурю негодования в кругах ИИ, потому что трудно было не заставить пользователей сети усомниться в том, что OpenAI является одновременно и рефери, и игроком.

Перед едой необходимо сообщить незнакомым друзьям предысторию происшествия.

В декабре прошлого года OpenAI официально выпустила новое поколение модели o3, которая претендует на выход за пределы возможностей искусственного интеллекта.

В одном из тестов по математике ИИ (табель успеваемости) под названием FrontierMath OpenAI далеко впереди с точностью 25,2%, что значительно превышает результаты менее 2% таких моделей, как GPT-4 и Gemini.

FrontierMath — это высоковзвешенная оценка продвинутых навыков математического мышления. Он был создан совместно Epoch AI и более чем 60 ведущими математиками. В число участников входят многочисленные обладатели медали Филдса и старшие разработчики предложений Международной математической олимпиады.

Тест содержит сотни оригинальных и сложных математических задач, охватывающих множество основных разделов современной математики, таких как теория чисел, реальный анализ, алгебраическая геометрия, теория категорий и т. д.

Теренс Тао, обладатель медали Филдса 2006 года и математический гений, однажды заметил, что проблемы FrontierMath «чрезвычайно сложны», и считает, что эти проблемы могут быть решены только экспертами в предметной области. Он отметил, что даже для людей-экспертов решение этих проблем потребует часов или даже дней усилий.

Этот табель успеваемости показал, что o3 добилась большого прогресса в продвинутых математических рассуждениях, но ее репутация изменилась после разоблачений подрядчика. Перед лицом разногласий Тамай Бесироглу, заместитель директора и соучредитель Epoch AI, быстро признал наличие проблемы на платформе X.

Мы допустили ошибку, не раскрыв ранее участие OpenAI в FrontierMath. Наш контракт запрещает нам делать это до выхода o3. Оглядываясь назад, можно сказать, что раньше нам действительно следовало активнее добиваться прозрачности. Мы признаем это и обязуемся работать лучше в будущем.

Ситуация еще больше обострилась, когда Карина Хонг, аспирантка по математике в Стэнфордском университете, заявила, что по соглашению с Epoch AI OpenAI имеет привилегированный доступ к FrontierMath.

«Шесть математиков, внесших значительный вклад в тест FrontierMath, подтвердили мне, что они не знали, что OpenAI будет иметь эксклюзивный доступ к тесту, который не будет доступен другим, и большинство сказали, что если бы они знали заранее, они, вероятно, не иметь выбора участвовать».

Перед лицом сомнений Тамай Бесироглу также извинился через блог и пообещал принять более высокие стандарты прозрачности в будущем.

В блоге подчеркивается, что финансовая поддержка OpenAI ограничивается разработкой FrontierMath и не вмешивается в содержание тестов. В нем также говорится, что все данные и вопросы получены от независимых участников и проверены независимыми экспертами.

Что касается использования обучения: мы признаем, что OpenAI имеет доступ к большинству проблем и решений FrontierMath, за исключением скрытого набора, к которому у OpenAI нет доступа, что позволяет нам независимо проверять функциональность модели. Кроме того, у нас есть устное соглашение, что эти материалы не будут использоваться для обучения моделей.
В публичных сообщениях сотрудников OpenAI FrontierMath описывается как «строго зарезервированный» оценочный набор. Хотя эта общественная позиция соответствует нашему пониманию, я хотел бы еще раз подчеркнуть, что лаборатории получают большую выгоду от наличия действительно незагрязненных наборов данных.
OpenAI также полностью поддерживает наше решение сохранить отдельный неопубликованный набор данных в качестве дополнительной меры защиты, позволяющей предотвратить переобучение и обеспечить точное измерение прогресса. С момента своего первоначального создания FrontierMath позиционировался и представлялся как инструмент оценки, и мы считаем, что его механизмы отражают эту цель.
[РЕДАКТИРОВАНИЕ: Уточнен доступ к данным OpenAI – у них нет доступа к отдельному набору удержаний в качестве дополнительной защиты для независимой проверки. ]

Эллиот Глейзер, главный математик Epoch AI, признал, что не раскрывал заранее информацию о финансировании проекта во время проекта, и извинился перед математиками, которые могли бы не участвовать, если бы их проинформировали.
Что касается оценок o3, он выразил уверенность в точности оценок, сообщенных OpenAI, но подчеркнул, что Epoch AI необходимо проверить с помощью разрабатываемого независимого зарезервированного набора тестов, и пообещал, что оценки зарезервированного набора будут обнародованы.

Отвечая на вопрос о статусе зарезервированного набора, Глейзер пояснил, что этот тестовый набор все еще находится в разработке и не завершен.

Однако эти объяснения не смогли подавить споры по поводу инцидента, и в адрес Epoch AI и OpenAI посыпалась еще большая критика, находившаяся в водовороте общественного мнения.

Ученый-компьютерщик Суббарао Камбхампати сказал, что ранее он скептически относился к заявлениям OpenAI о том, что у нее не было предварительного доступа к данным олимпиадной математики и FrontierMath. По его мнению, практика OpenAI запрещать соответствующим сторонам раскрывать содержание соглашения является крайне подозрительной.

Известный эксперт по искусственному интеллекту Гэри Маркус резко раскритиковал этот инцидент.

Он охарактеризовал демонстрацию o3 OpenAI как «отчаянную, манипулятивную, вводящую в заблуждение и дрянную демонстрацию науки», утверждая, что это скорее чрезмерная шумиха, чем настоящий прорыв.

Яркая аналогия: если кто-то заранее получает вопросы и ответы теста, а другие могут сдать экзамен только исходя из своих сил, такое сравнение явно несправедливо. OpenAI не только получила доступ к проблемам и решениям, но и другие конкуренты, такие как xai, DeepMind и академические команды, не имели доступа к тем же ресурсам.

Что еще более важно, Гэри Маркус считает, что OpenAI умалчивает об этом ключевом факте.

А в процессе отображения OpenAI выборочно скрывал ключевую информацию. Он не публиковал случаи успеха или неудачи по конкретным задачам, не предоставлял соответствующие записи процесса рассуждения и не объяснял, какие проблемы появились в обучающем наборе. В то же время они не позволили Epoch провести проверку на отложенном тестовом наборе.

Возвращение к этой усиливающейся суматохе во многом связано с усталостью пользователей сети от бесконечной шумихи вокруг OpenAI. Предполагаемое поведение, заключающееся в «подтасовке рейтинга», в очередной раз затронуло чувствительные нервы многих пользователей сети.

Поскольку общественное мнение продолжает волноваться, OpenAI объявила о прорыве в своем проекте «Оператор», как ожидается, 30 января генеральный директор Альтман проведет закрытый брифинг для правительства США.

Сообщается, что «Оператор» — это автономный ИИ-агент с возможностями PhD-уровня, разработанный OpenAI. Он может самостоятельно выполнять задачи в браузере, такие как написание кода, бронирование поездок, управление расписанием и т. д.

Конечно, на данном этапе, возможно, лучшая антикризисная стратегия по связям с общественностью — немедленно выпустить o3. А еще это лучший подарок на праздник Весны.

На момент публикации OpenAI не сделала никаких дальнейших заявлений.

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo