Исследователи только что разблокировали ChatGPT

Исследователи обнаружили, что можно обойти механизм, встроенный в чат-ботов с искусственным интеллектом , чтобы они могли отвечать на запросы на запрещенные или деликатные темы, используя другого чат-бота с искусственным интеллектом в рамках процесса обучения.

Команда ученых-компьютерщиков из Наньянского технологического университета (NTU) в Сингапуре неофициально называет этот метод «побегом из тюрьмы», но более официально это процесс «Masterkey». Эта система использует чат-боты, в том числе ChatGPT, Google Bard и Microsoft Bing Chat, друг против друга в рамках метода обучения, состоящего из двух частей, который позволяет двум чат-ботам изучать модели друг друга и перенаправлять любые команды на запрещенные темы.

ChatGPT против Google на смартфонах.
ЦифровыеТенденции

В состав команды входят профессор Лю Ян и доктор философии НТУ. студенты г-н Дэн Гэлэй и г-н Лю И, которые были соавторами исследования и разработали методы атаки для проверки концепции, которые по сути работают как взлом плохого актера.

По словам команды, сначала они провели реверс-инжиниринг одной большой языковой модели (LLM), чтобы раскрыть ее защитные механизмы. Изначально это были блоки модели, которые не позволяли ответам на определенные подсказки или слова восприниматься как ответы из-за насильственных, аморальных или злонамеренных намерений.

Но с помощью обратного проектирования этой информации они могут научить другого LLM тому, как создать обходной путь. После создания обхода вторая модель сможет выражать свои мысли более свободно на основе реверс-инжиниринга LLM первой модели. Команда называет этот процесс «Masterkey», потому что он должен работать, даже если чат-боты LLM усилены дополнительными средствами безопасности или будут исправлены в будущем.

Профессор Луи Ян отметил, что суть процесса заключается в том, что он демонстрирует, насколько легко чат-боты LLM AI могут учиться и адаптироваться. Команда утверждает, что ее процесс Masterkey имел в три раза больший успех при джейлбрейке чат-ботов LLM, чем традиционный быстрый процесс. Точно так же некоторые эксперты утверждают, что недавно предложенные сбои, с которыми столкнулись некоторые LLM, такие как GPT-4, являются признаками того, что он становится более продвинутым, а не тупее и ленивее , как утверждают некоторые критики.

С тех пор как чат-боты с искусственным интеллектом стали популярными в конце 2022 года с появлением OpenAI ChatGPT, был предпринят мощный толчок к обеспечению безопасности и удобства использования различных сервисов для всех. OpenAI разместила предупреждения о безопасности в своем продукте ChatGPT во время регистрации и спорадических обновлений, предупреждая о непреднамеренных ошибках в языке. Между тем, различные побочные эффекты чат-ботов позволяют до некоторой степени допускать ругательства и оскорбительные выражения.

Кроме того, злоумышленники быстро начали пользоваться спросом на ChatGPT, Google Bard и других чат-ботов, прежде чем они стали широко доступны. Многие кампании рекламировали продукты в социальных сетях с прикреплением вредоносных программ к ссылкам на изображения, помимо других атак. Это быстро показало, что ИИ является следующим рубежом киберпреступности.

Исследовательская группа NTU связалась с поставщиками услуг чат-ботов с искусственным интеллектом, участвовавшими в исследовании, по поводу данных, подтверждающих концепцию, которые показывают, что взлом чат-ботов реален. Команда также представит свои выводы на симпозиуме по безопасности сетей и распределенных систем в Сан-Диего в феврале.