A Real-Time, Self-Tuning Moderator Framework for Adversarial Prompt Detection

2508.07139v1 cs.CR, cs.AI 2025-08-13
Авторы:

Ivan Zhang

Резюме на русском

#### Контекст В современной информационной среде, где широко распространяются глубоко обученные языковые модели (LLM), гарантия их адекватного поведения и соответствия заданным целям является критическим аспектом информационной безопасности. Однако многие существующие методы защиты от адверсарных атак и яйлбрейков над LLM не успевают адаптироваться к новым угрозам, приводят к снижению качества ответов на благонамеренные запросы или оказываются сложными для масштабирования. Данная статья адресует эти проблемы, предлагая решение в виде самоподстраивающегося модератора, который в реальном времени реагирует на появляющиеся угрозы, сохраняя небольшой функциональный и ресурсозатратный штрих. #### Метод Предлагаемая модель основывается на самоподстраивающемся модераторе (RTST), который использует адаптивные механизмы выявления и ответа на адверсарные модификации запросов. Основные элементы методики включают в себя динамическое определение характеристик запроса, сравнение с предыдущими модерациями и принятие решения о необходимости корректировки ответа. Архитектура легковесна и включает в себя небольшой набор гиперпараметров, что позволяет минимизировать затраты на обучение и обеспечить быструю работу в реальном времени. Модель тренируется на основе тестовых наборов с различными типами адверсарных модификаций, что позволяет эффективно аппроксимировать разнообразные атаки. #### Результаты В экспериментах были проанализированы работы модели на Google Gemini LLM. Модель RTST показала высокую точность в угадывании адверсарных модификаций, достигая отличительного результата в сравнении с традиционными подходами, такими как методы традиционного бинарного классификатора или тяжеловесного fine-tuning. Исследователи также заметили, что RTST значительно менее влияет на качество ответов на благонамеренные запросы, чем существующие алгоритмы. Экспериментальные результаты подтверждают, что RTST может быть эффективно применен в реальном времени, обеспечивая достаточное сохранение производительности и безопасности. #### Значимость Полагаясь на самоподстраивающуюся архитектуру, RTST может быть применен в различных сферах, включая информационную безопасность, системы управления контентом и взаимодействие с клиентами. Одним из основных преимуществ является способность быстро адаптироваться к новым видам атак без необходимости периодического переучивания. Это делает RTST более масштабируемым и эффективным в сравнении с другими методами. Также, его легковесная архитектура позволяет его исполь

Abstract

Ensuring LLM alignment is critical to information security as AI models become increasingly widespread and integrated in society. Unfortunately, many defenses against adversarial attacks and jailbreaking on LLMs cannot adapt quickly to new attacks, degrade model responses to benign prompts, or introduce significant barriers to scalable implementation. To mitigate these challenges, we introduce a real-time, self-tuning (RTST) moderator framework to defend against adversarial attacks while maintaining a lightweight training footprint. We empirically evaluate its effectiveness using Google's Gemini models against modern, effective jailbreaks. Our results demonstrate the advantages of an adaptive, minimally intrusive framework for jailbreak defense over traditional fine-tuning or classifier models.

Ссылки и действия