Apple сегодня решает один из самых неприятных аспектов искусственного интеллекта
По мере того, как такие компании, как Google , Anthropic и OpenAI, обновляют и модернизируют свои модели искусственного интеллекта, способ взаимодействия этих LLM с пользователями также обязательно изменится. Однако привыкание к новой системе может стать проблемой для пользователей, которым затем придется корректировать формулировку своих запросов, чтобы получить ожидаемые результаты. Исследовательская группа Apple разработала новый метод , позволяющий упростить переход к обновлению, одновременно сокращая несоответствия между двумя версиями на целых 40%.
В рамках своего исследования « MUSCLE: Стратегия обновления модели для совместимой эволюции LLM », опубликованного 15 июля, исследователи утверждают, что при обновлении своих моделей разработчики, как правило, больше сосредотачиваются на повышении общей производительности, а не на обеспечении перехода между моделями происходит легко для пользователя. Это включает в себя обеспечение того, чтобы отрицательные перевороты, когда новая модель предсказывает неправильный результат для тестовой выборки, которая была правильно предсказана старой моделью, были сведены к минимуму.
Это связано с тем, что, как утверждают авторы исследования, у каждого пользователя есть свои причуды, придирки и персонализированные способы взаимодействия с чат-ботами. Необходимость постоянно корректировать и адаптировать способ взаимодействия с моделью может стать утомительным занятием, которое противоречит желаемому пользовательскому опыту Apple.
Исследовательская группа даже утверждает, что неверные прогнозы ИИ должны оставаться между версиями: «Есть смысл быть последовательными, когда обе модели неверны», — написали они. «Пользователь может разработать стратегии реагирования на то, как взаимодействовать с моделью, когда она неверна».
Apple представляет MUSCLE
Стратегия обновления модели для совместимой эволюции LLM
Модели больших языков (LLM) часто обновляются из-за изменений данных или архитектуры для повышения их производительности. При обновлении моделей разработчики часто фокусируются на повышении общей производительности… pic.twitter.com/ATm2zM4Poc
— АК (@_akhaliq) 15 июля 2024 г.
Чтобы решить эту проблему, исследователи сначала разработали метрики, с помощью которых можно измерить степень регрессии между моделями, а затем разработали стратегию, позволяющую минимизировать их возникновение. В результате появилась MUSCLE — стратегия, которая не требует от разработчиков переобучения всей базовой модели и вместо этого опирается на использование обучающих адаптеров. Адаптеры — небольшие модули искусственного интеллекта , которые можно интегрировать в разных точках всего LLM.
Затем разработчики могут точно настроить эти конкретные модули, а не всю модель. Это позволяет модели в целом выполнять отдельные задачи за небольшую часть затрат на обучение и лишь с небольшим увеличением количества параметров. По сути, это плагины для больших языковых моделей, которые позволяют нам настраивать отдельные разделы всего ИИ, а не весь его целиком.
В рамках своего исследования исследовательская группа обновила LLM, в том числе Llama от Meta и Phi от Microsoft, используя в качестве образцов конкретные математические запросы, и обнаружила, что отрицательные изменения происходят в 60% случаев. Включив стратегию MUSCLE, команде не удалось полностью устранить негативные перевороты, но им удалось сократить их возникновение на целых 40 % по сравнению с контролем.