AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software
2509.16861v1
cs.CR, cs.AI, cs.SE
2025-09-24
Авторы:
Rui Yang, Michael Fu, Chakkrit Tantithamthavorn, Chetan Arora, Gunel Gulmammadova, Joey Chua
Резюме на русском
Исходные данные:
**Название:** AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software
**Авторы:** Rui Yang, Michael Fu, Chakkrit Tantithamthavorn, Chetan Arora, Gunel Gulmammadova, Joey Chua
---
## Контекст
При развертывании Large Language Models (LLM) в реальных приложениях, гарантия безопасности и эффективности их использования является критически важной задачей. Несмотря на то, что LLMs обеспечивают мощные возможности для интеллектуальных интеракций, они также оставляют прослойку для возможности использования в злонамеренных целях. Например, jailbreak-атаки, в которых пользовательские запросы преднамеренно сформированы для обхода ограничений системы, могут привести к подрыву безопасности. До сих пор, существующие guardrails, предназначенные для фильтрации подозрительных запросов, сталкиваются с проблемами, такими как ограниченная обучаемость и неэффективность против новых атак. Это поднимает вопрос о необходимости создания adaptive guardrail, который может динамически адаптироваться к появляющимся угрозам.
## Метод
AdaptiveGuard представляет собой кванторный подход к обеспечению безопасности в реальном времени для LLM-powered software. Он использует модели обнаружения Out-of-Distribution (OOD), чтобы идентифицировать неожиданные запросы, которые могут быть связаны с jailbreak-атаками. Ключевой особенностью является фреймворк для совершенствования системы в процессе ее использования. Это достигается через многоуровневую архитектуру, включающую нейронные сети для OOD-обнаружения и технологии continual learning для адаптации к новым угрозам. Технические решения включают в себя модели, которые могут быстро переучиваться на новые данные и применять эти изменения в реальном времени.
## Результаты
В ходе экспериментов AdaptiveGuard показал высокую эффективность. Он обнаруживал 96% OOD-запросов, что значительно превышает результаты базовых моделей. Благодаря технологии continual learning, он адаптировался к новым атакам всего за два обновления. Эксперименты также показали, что после адаптации AdaptiveGuard сохранял более 85% F1-score на in-distribution запросах, что является высоким показателем среди остальных систем безопасности. Эти результаты демонстрируют то, что AdaptiveGuard может адаптироваться к новым угрозам, обеспечивая надежную защиту LLM-powered приложений.
## Значимость
AdaptiveGuard может применяться в различных сферах, где LLMs используются, включая системы автоматизации, сервисы поддержки клиентов и даже безопасность информационных систем. Его главное преимущество заключается в уникальной способности адаптироваться к новым атакам без необходимости полной переустановки. Это не только повышает уровень безопасности но и сокращает время реагирования на новые угрозы. Потенциальное влияние AdaptiveGuard
Abstract
Guardrails are critical for the safe deployment of Large Language Models
(LLMs)-powered software. Unlike traditional rule-based systems with limited,
predefined input-output spaces that inherently constrain unsafe behavior, LLMs
enable open-ended, intelligent interactions--opening the door to jailbreak
attacks through user inputs. Guardrails serve as a protective layer, filtering
unsafe prompts before they reach the LLM. However, prior research shows that
jailbreak attacks can still succeed over 70% of the time, even against advanced
models like GPT-4o. While guardrails such as LlamaGuard report up to 95%
accuracy, our preliminary analysis shows their performance can drop sharply--to
as low as 12%--when confronted with unseen attacks. This highlights a growing
software engineering challenge: how to build a post-deployment guardrail that
adapts dynamically to emerging threats? To address this, we propose
AdaptiveGuard, an adaptive guardrail that detects novel jailbreak attacks as
out-of-distribution (OOD) inputs and learns to defend against them through a
continual learning framework. Through empirical evaluation, AdaptiveGuard
achieves 96% OOD detection accuracy, adapts to new attacks in just two update
steps, and retains over 85% F1-score on in-distribution data post-adaptation,
outperforming other baselines. These results demonstrate that AdaptiveGuard is
a guardrail capable of evolving in response to emerging jailbreak strategies
post deployment. We release our AdaptiveGuard and studied datasets at
https://github.com/awsm-research/AdaptiveGuard to support further research.
Ссылки и действия
Дополнительные ресурсы: