GUARD: Guideline Upholding Test through Adaptive Role-play and Jailbreak Diagnostics for LLMs
2508.20325v1
cs.CL, cs.AI, cs.CV
2025-08-30
Авторы:
Haibo Jin, Ruoxi Chen, Peiyan Zhang, Andy Zhou, Yang Zhang, Haohan Wang
Резюме на русском
## Контекст
В последние годы широко распространились бо LLM (Large Language Models) в различные сферы, от здравоохранения до финансов. Это проникновение привело к существенным вопросам о безопасности и моральности их использования. Национальные правительства выпустили широковещательные руководства, называющие требования к разработчикам LLMs в сфере поведения, агрессии, языка и других областях. Однако, несмотря на эти руководства, существует значительная проблема: нет действительных методов для проверки соответствия более низкоуровневым требованиям руководств к реальным поведениям LLMs. Это создает риск того, что LLMs могут выдавать потенциально вредные ответы, несоответствующие этим руководствам. GUARD была разработана для решения этой проблемы, предоставляя метод, который преобразует высокоуровневые теоретические утверждения в экспериментальные тесты, используя систему ролевого игрового процесса.
## Метод
GUARD использует три основных этапа для тестирования соответствия LLMs руководствам. Во-первых, она автоматически генерирует вопросы, которые могут вызвать нарушение руководств. Эти вопросы генерируются на основе государственных руководств и нацелены на проверку поведения LLMs в сложных ситуациях. Во-вторых, GUARD использует механизм "адаптивного ролевого игрового процесса", где система имитирует различные роли, в том числе пользователя, руководителя и других, чтобы вызвать реакцию LLMs. В-третьих, GUARD-JD (Jailbreak Diagnostics) использует диагностический подход, создавая сценарии, которые могут вызвать потенциально небезопасный или неэтичный ответ, даже при наличии встроенных механизмов безопасности. GUARD совершенствует ролевое игровое тестирование и добавляет диагностику, которая может выявить эти небезопасные ситуации, выявляя уязвимости в системе.
## Результаты
Мы провели тесты на семи LLMs, включая Vicuna-13B, LongChat-7B, Llama2-7B, Llama-3-8B, GPT-3.5, GPT-4, GPT-4o и Claude-3.7. Мы проверили соответствие требований трех разных государственных руководств в различных сферах, включая этику, безопасность и агрессию. Мы также проводили диагностику "jailbreak", чтобы выявить моменты, когда LLMs могут выдавать небезопасные или неэтичные ответы. Результаты показали, что GUARD может выявлять значительные проблемы с соответствием руководств с помощью адаптивных ролей и jailbreak-диагностик. Например, мы обнаружили, что некоторые LLMs могут выдавать небезопасные ответы, даже если они не нарушают прямые конкретные утверждения руководств.
## Значимость
GUARD может использоваться в разных сферах, где LLMs использу
Abstract
As Large Language Models become increasingly integral to various domains,
their potential to generate harmful responses has prompted significant societal
and regulatory concerns. In response, governments have issued ethics guidelines
to promote the development of trustworthy AI. However, these guidelines are
typically high-level demands for developers and testers, leaving a gap in
translating them into actionable testing questions to verify LLM compliance.
To address this challenge, we introduce GUARD (\textbf{G}uideline
\textbf{U}pholding Test through \textbf{A}daptive \textbf{R}ole-play and
Jailbreak \textbf{D}iagnostics), a testing method designed to operationalize
guidelines into specific guideline-violating questions that assess LLM
adherence. To implement this, GUARD uses automated generation of
guideline-violating questions based on government-issued guidelines, thereby
testing whether responses comply with these guidelines. When responses directly
violate guidelines, GUARD reports inconsistencies. Furthermore, for responses
that do not directly violate guidelines, GUARD integrates the concept of
``jailbreaks'' to diagnostics, named GUARD-JD, which creates scenarios that
provoke unethical or guideline-violating responses, effectively identifying
potential scenarios that could bypass built-in safety mechanisms. Our method
finally culminates in a compliance report, delineating the extent of adherence
and highlighting any violations.
We have empirically validated the effectiveness of GUARD on seven LLMs,
including Vicuna-13B, LongChat-7B, Llama2-7B, Llama-3-8B, GPT-3.5, GPT-4,
GPT-4o, and Claude-3.7, by testing compliance under three government-issued
guidelines and conducting jailbreak diagnostics. Additionally, GUARD-JD can
transfer jailbreak diagnostics to vision-language models, demonstrating its
usage in promoting reliable LLM-based applications.
Ссылки и действия
Дополнительные ресурсы: