Обнаружен новый опасный джейлбрейк для чат-ботов с искусственным интеллектом

сторона здания Microsoft
Викисклад

Microsoft опубликовала более подробную информацию о тревожном новом методе джейлбрейка с генеративным искусственным интеллектом, который она обнаружила, под названием «Skeleton Key». Используя этот метод быстрого внедрения, злоумышленники могут эффективно обходить защитные ограждения чат-бота — функции безопасности, которые не позволяют ChatGPT работать полностью.

Skeleton Key — это пример быстрого внедрения или быстрой инженерной атаки. Это многоходовая стратегия, разработанная для того, чтобы, по сути, убедить модель ИИ игнорировать укоренившиеся меры безопасности, «[заставляя] систему нарушать политику своих операторов, принимать решения под неправомерным влиянием пользователя или выполнять вредоносные инструкции», — Марк Руссинович, Технический директор Microsoft Azure, написал в анонсе.

Его также можно обманом заставить раскрыть вредную или опасную информацию — скажем, как сделать самодельные бомбы с гвоздями или наиболее эффективный метод расчленения трупа.

пример атаки с помощью скелетного ключа
Майкрософт

Атака работает, сначала прося модель расширить свои ограничения, а не полностью их менять, и выдавать предупреждения в ответ на запрещенные запросы, а не полностью отклонять их. Как только джейлбрейк будет успешно принят, система подтвердит обновление своих средств защиты и будет следовать инструкциям пользователя для создания любого запрошенного контента, независимо от темы. Исследовательская группа успешно протестировала этот эксплойт на различных предметах, включая взрывчатые вещества, биологическое оружие, политику, расизм, наркотики, членовредительство, изображения секса и насилие.

Хотя злоумышленники могут заставить систему говорить неприличные вещи, Руссинович сразу отметил, что существуют ограничения на то, какого рода доступ злоумышленники могут фактически получить, используя эту технику. «Как и все джейлбрейки, его влияние можно понимать как сокращение разрыва между тем, на что способна модель (с учетом учетных данных пользователя и т. д.), и тем, что она готова делать», — пояснил он. «Поскольку это атака на саму модель, она не предполагает других рисков для системы ИИ, таких как разрешение доступа к данным другого пользователя, получение контроля над системой или утечка данных».

В рамках своего исследования исследователи Microsoft протестировали технику Skeleton Key на различных ведущих моделях искусственного интеллекта, включая Llama3-70b-instruct от Meta, Gemini Pro от Google, GPT-3.5 Turbo и GPT-4 от OpenAI, Mistral Large, Claude 3 Opus от Anthropic, и Cohere Commander R Plus. Исследовательская группа уже раскрыла уязвимость этим разработчикам и внедрила Prompt Shields для обнаружения и блокировки этого джейлбрейка в своих моделях искусственного интеллекта, управляемых Azure, включая Copilot.