AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software

2509.16861v1 cs.CR, cs.AI, cs.SE 2025-09-24
Авторы:

Rui Yang, Michael Fu, Chakkrit Tantithamthavorn, Chetan Arora, Gunel Gulmammadova, Joey Chua

Резюме на русском

Исходные данные: **Название:** AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software **Авторы:** Rui Yang, Michael Fu, Chakkrit Tantithamthavorn, Chetan Arora, Gunel Gulmammadova, Joey Chua --- ## Контекст При развертывании Large Language Models (LLM) в реальных приложениях, гарантия безопасности и эффективности их использования является критически важной задачей. Несмотря на то, что LLMs обеспечивают мощные возможности для интеллектуальных интеракций, они также оставляют прослойку для возможности использования в злонамеренных целях. Например, jailbreak-атаки, в которых пользовательские запросы преднамеренно сформированы для обхода ограничений системы, могут привести к подрыву безопасности. До сих пор, существующие guardrails, предназначенные для фильтрации подозрительных запросов, сталкиваются с проблемами, такими как ограниченная обучаемость и неэффективность против новых атак. Это поднимает вопрос о необходимости создания adaptive guardrail, который может динамически адаптироваться к появляющимся угрозам. ## Метод AdaptiveGuard представляет собой кванторный подход к обеспечению безопасности в реальном времени для LLM-powered software. Он использует модели обнаружения Out-of-Distribution (OOD), чтобы идентифицировать неожиданные запросы, которые могут быть связаны с jailbreak-атаками. Ключевой особенностью является фреймворк для совершенствования системы в процессе ее использования. Это достигается через многоуровневую архитектуру, включающую нейронные сети для OOD-обнаружения и технологии continual learning для адаптации к новым угрозам. Технические решения включают в себя модели, которые могут быстро переучиваться на новые данные и применять эти изменения в реальном времени. ## Результаты В ходе экспериментов AdaptiveGuard показал высокую эффективность. Он обнаруживал 96% OOD-запросов, что значительно превышает результаты базовых моделей. Благодаря технологии continual learning, он адаптировался к новым атакам всего за два обновления. Эксперименты также показали, что после адаптации AdaptiveGuard сохранял более 85% F1-score на in-distribution запросах, что является высоким показателем среди остальных систем безопасности. Эти результаты демонстрируют то, что AdaptiveGuard может адаптироваться к новым угрозам, обеспечивая надежную защиту LLM-powered приложений. ## Значимость AdaptiveGuard может применяться в различных сферах, где LLMs используются, включая системы автоматизации, сервисы поддержки клиентов и даже безопасность информационных систем. Его главное преимущество заключается в уникальной способности адаптироваться к новым атакам без необходимости полной переустановки. Это не только повышает уровень безопасности но и сокращает время реагирования на новые угрозы. Потенциальное влияние AdaptiveGuard

Abstract

Guardrails are critical for the safe deployment of Large Language Models (LLMs)-powered software. Unlike traditional rule-based systems with limited, predefined input-output spaces that inherently constrain unsafe behavior, LLMs enable open-ended, intelligent interactions--opening the door to jailbreak attacks through user inputs. Guardrails serve as a protective layer, filtering unsafe prompts before they reach the LLM. However, prior research shows that jailbreak attacks can still succeed over 70% of the time, even against advanced models like GPT-4o. While guardrails such as LlamaGuard report up to 95% accuracy, our preliminary analysis shows their performance can drop sharply--to as low as 12%--when confronted with unseen attacks. This highlights a growing software engineering challenge: how to build a post-deployment guardrail that adapts dynamically to emerging threats? To address this, we propose AdaptiveGuard, an adaptive guardrail that detects novel jailbreak attacks as out-of-distribution (OOD) inputs and learns to defend against them through a continual learning framework. Through empirical evaluation, AdaptiveGuard achieves 96% OOD detection accuracy, adapts to new attacks in just two update steps, and retains over 85% F1-score on in-distribution data post-adaptation, outperforming other baselines. These results demonstrate that AdaptiveGuard is a guardrail capable of evolving in response to emerging jailbreak strategies post deployment. We release our AdaptiveGuard and studied datasets at https://github.com/awsm-research/AdaptiveGuard to support further research.

Ссылки и действия