Вот почему люди говорят, что GPT-4 становится «ленивым»
OpenAI и его технологии большую часть ноября находились в центре скандала. Между быстрым увольнением и повторным приемом на работу генерального директора Сэма Альтмана и любопытным случаем состановкой платных подписок ChatGPT Plus OpenAI уже несколько недель держит индустрию искусственного интеллекта в новостях.
Теперь энтузиасты искусственного интеллекта переформулировали проблему, которая заставляет многих задаваться вопросом, становится ли GPT-4 «ленивее» по мере того, как языковая модель продолжает обучаться. Многие из тех, кто использует его для ускорения более интенсивных задач, обратились в X (ранее Twitter), чтобы выразить свое недовольство по поводу предполагаемых изменений.
Рохит Кришнан на X подробно рассказал о нескольких неудачах, с которыми он столкнулся при использовании GPT-4, языковой модели ChatGPT Plus, платной версии ChatGPT. Он объяснил, что чат-бот отклонил несколько его запросов или предоставил ему урезанные версии запросов, хотя ранее он мог получить подробные ответы. Он также отметил, что языковая модель будет использовать инструменты, отличные от тех, которые ей было поручено использовать, например, Dall-E, когда в подсказке запрашивается интерпретатор кода. Кришнан также саркастически добавил, что «анализ ошибок» — это способ языковой модели сказать: «AFK [от клавиатуры], вернись через пару часов».
Мэтт Венсинг на Xподробно рассказал о своем эксперименте , в котором он попросил ChatGPT Plus составить список дат между сегодняшним днем и 5 мая 2024 года, а чат-боту потребовалась дополнительная информация, например количество недель между этими датами, прежде чем он смог завершить эксперимент. первоначальная задача.
Профессор Уортона Итан Моллик также поделился своими наблюдениями за GPT-4 после сравнения последовательностей с интерпретатором кода, который он запускал в июле, с более поздними запросами во вторник. Он пришел к выводу, что GPT-4 все еще хорошо осведомлен, но отметил, что он объяснил ему, как исправить его код, а не сам код. По сути, ему придется выполнить работу, которую он поручил GPT-4. Хотя Моллик не намеревался критиковать этот язык, его наблюдения согласуются с тем, что другие назвали «ответной болтовней» GPT-4.
Известно, что ChatGPT галлюцинирует ответы на информацию, которую он не знает, но эти ошибки, похоже, выходят далеко за рамки обычных ошибок чат-бота с искусственным интеллектом. GPT-4 был представлен в марте, но уже в июле начали появляться сообщения о том, что языковая модель становится «тупее». Исследование, проведенное в сотрудничестве со Стэнфордским университетом и Калифорнийским университетом в Беркли, показало, что только в период с марта по июнь точность GPT-4 упала с 97,6% до 2,4%. В нем подробно говорилось, что платная версия ChatGPT не смогла дать правильный ответ на математическое уравнение с подробным объяснением, в то время как бесплатная версия, в которой все еще используется более старая модель GPT 3.5, дала правильный ответ и подробное объяснение математического процесса.
В это время Питер Велиндер, вице-президент OpenAI Product, предположил , что активные пользователи могут столкнуться с психологическим феноменом, когда качество ответов может со временем ухудшаться, тогда как языковая модель на самом деле становится более эффективной.
По словам Моллика, текущие проблемы также могут быть временными и связаны с перегрузкой системы или изменением стиля подсказок, которое не было заметно пользователям. Примечательно, что OpenAI назвала перегрузку системы причиной закрытия регистрации ChatGPT Plus после резкого роста интереса к сервису после того, как первая конференция разработчиков DevDay представила множество новых функций для платной версии чат-бота с искусственным интеллектом. Для ChatGPT Plus по-прежнему существует список ожидания. Профессор также добавил, что ChatGPT на мобильных устройствах использует другой стиль подсказок, что приводит к «более коротким и более точным ответам».
Ясин на X подробно рассказал, что ненадежность последней модели GPT-4 из-за снижения соблюдения инструкций заставила их вернуться к традиционному кодированию, добавив, что они планируют создать LLM с локальным кодом, чтобы восстановить контроль над параметрами модели. Другие пользователи упомянули о выборе вариантов с открытым исходным кодом в разгар упадка языковой модели.
Аналогичным образом, пользователь Reddit Mindless-Ad8595 объяснил, что недавние обновления GPT-4 сделали его слишком умным для его же блага. «У него нет предопределенного «пути», определяющего его поведение, что делает его невероятно универсальным, но по умолчанию несколько бесцельным», — сказал он.
Программист рекомендует пользователям создавать собственные GPT, специализированные для каждой задачи или приложения, чтобы повысить эффективность вывода модели. Он не предлагает никаких практических решений для пользователей, остающихся в экосистеме OpenAI.
Разработчик приложения Ник Добос поделился своим опытом ошибок GPT-4, отметив, что, когда он предложил ChatGPT написать Pong в SwiftUI , он обнаружил в коде различные заполнители и задачи. Он добавил, что чат-бот будет игнорировать команды и продолжит вставлять эти заполнители и задачи в код, даже если ему будет указано поступить иначе. Несколько пользователей X подтвердили подобный опыт на собственных примерах кода с заполнителями и списками задач. Сообщение Добоса привлекло внимание сотрудника OpenAI, который сказал, что направит примеры команде разработчиков компании для исправления, пообещав тем временем делиться любыми обновлениями.
В целом, нет четкого объяснения, почему GPT-4 в настоящее время испытывает осложнения. Пользователи, обсуждающие свой опыт в Интернете, выдвинули множество идей. Они варьируются от моделей слияния OpenAI до постоянной перегрузки серверов из-за использования GPT-4 и GPT-4 Turbo, а также попыток компании сэкономить деньги за счет ограничения результатов.
Хорошо известно, что OpenAI выполняет чрезвычайно дорогостоящую операцию. В апреле 2023 года исследователи указали, что для поддержания работы ChatGPT требуется 700 000 долларов в день , или 36 центов за запрос. Отраслевые аналитики тогда подробно рассказали, что OpenAI придется расширить свой парк графических процессоров на 30 000 единиц, чтобы сохранить свою коммерческую производительность до конца года. Это повлечет за собой поддержку процессов ChatGPT в дополнение к вычислениям для всех его партнеров.
Ожидая стабилизации производительности GPT-4, пользователи обменялись несколькими замечаниями, освещая ситуацию с X.
«Следующее, что вы узнаете, это будет больной», — сказал Саутри .
«Так много ответов со словами «а все остальное сделаете вы». Нет, ВЫ сделаете все остальное», — сказал г-н Гарнетт .
Количество ответов и сообщений о проблеме определенно сложно игнорировать. Нам придется подождать и посмотреть, сможет ли OpenAI решить эту проблему в будущем обновлении.