GPT-4 становится тупее? Наконец-то у нас могут быть доказательства

Каким бы впечатляющим ни был GPT-4 при запуске, некоторые наблюдатели заметили, что он потерял часть своей точности и мощности. Эти наблюдения публикуются в сети уже несколько месяцев, в том числе на форумах OpenAI .

Эти чувства были там некоторое время, но теперь у нас наконец могут быть доказательства. Исследование, проведенное в сотрудничестве со Стэнфордским университетом и Калифорнийским университетом в Беркли, предполагает, что GPT-4 не улучшил свои навыки ответа, а фактически ухудшился с дальнейшими обновлениями языковой модели.

GPT-4 со временем становится все хуже, а не лучше.

Многие люди сообщали, что заметили значительное ухудшение качества ответов модели, но до сих пор все это было анекдотически.

Но теперь мы знаем.

Как минимум одно исследование показывает, что июньская версия GPT-4 объективно хуже, чем… pic.twitter.com/whhELYY6M4

– Сантьяго (@svpino) 19 июля 2023 г.

Исследование под названием «Как поведение ChatGPT меняется со временем?» , протестировали возможности между GPT-4 и предыдущей языковой версией GPT-3.5 в период с марта по июнь. Тестируя две версии модели с набором данных из 500 задач, исследователи заметили, что точность GPT-4 в марте составила 97,6% при 488 правильных ответах, а в июне — 2,4% после того, как GPT-4 прошел некоторые обновления. Через несколько месяцев модель дала только 12 правильных ответов.

Другим тестом, использованным исследователями, был метод цепочки размышлений, в котором они спрашивали GPT-4 . Является ли 17 077 простым числом? Вопрос рассуждений. По словам исследователей, GPT-4 не только неправильно ответил «нет», но и не дал никаких объяснений того, как он пришел к такому выводу.

ChatGPT спрашивают о простом числе.

Примечательно, что GPT-4 в настоящее время доступен для разработчиков или платных участников через ChatGPT Plus . Если задать GPT-3.5 тот же вопрос через предварительный просмотр бесплатного исследования ChatGPT , что и я, вы получите не только правильный ответ, но и подробное объяснение математического процесса.

Кроме того, генерация кода пострадала из-за того, что разработчики LeetCode увидели, что производительность GPT-4 на его наборе данных из 50 простых задач упала с точности 52% до точности 10% в период с марта по июнь.

Когда впервые было объявлено о GPT-4, OpenAI подробно описала использование суперкомпьютеров Microsoft Azure AI для обучения языковой модели в течение шести месяцев, утверждая, что в результате вероятность получения «желаемой информации из пользовательских запросов» повысилась на 40% .

Тем не менее, комментатор Twitter @svpino отметил, что ходят слухи о том, что OpenAI может использовать «меньшие и специализированные модели GPT-4, которые действуют аналогично большой модели, но дешевле в эксплуатации».

Этот более дешевый и быстрый вариант может привести к снижению качества ответов GPT-4 в критический момент, когда у материнской компании есть много других крупных организаций, зависящих от ее технологии для совместной работы.

ChatGPT, основанный на GPT-3.5 LLM, уже был известен своими информационными проблемами, такими как ограниченное знание мировых событий после 2021 года, что могло привести к заполнению пробелов неверными данными. Однако информационная регрессия, по-видимому, является совершенно новой проблемой, никогда ранее не встречавшейся в сервисе. Пользователи с нетерпением ждали обновлений для решения принятых проблем.

Генеральный директор OpenAI Сэм Альтман недавно выразил свое разочарование в твите после того, как Федеральная торговая комиссия начала расследование того, нарушил ли ChatGPT законы о защите прав потребителей.

«Мы открыто говорим об ограничениях нашей технологии, особенно когда нам не хватает. А наша структура ограниченной прибыли означает, что мы не заинтересованы в получении неограниченной прибыли», — написал он в Твиттере.