DynaGuard: A Dynamic Guardrail Model With User-Defined Policies

2509.02563v1 cs.LG, cs.CL 2025-09-05

Авторы:

Monte Hoover, Vatsal Baherwani, Neel Jain, Khalid Saifullah, Joseph Vincent, Chirag Jain, Melissa Kazemi Rad, C. Bayan Bruss, Ashwinee Panda, Tom Goldstein

Резюме на русском

## Контекст Область исследования сосредоточена на развитии моделей для мониторинга и модерирования поведения пользовательских чатботов. Существующие модели, такие как LlamaGuard, ограничены в своих возможностях, так как они распознают только предопределенные, статические категории вредоносного поведения. Это ограничение приводит к неэффективности в применении моделей к различным прикладным областям, где политики могут быть более сложными и динамически изменяемыми. Наша модель DynaGuard предлагает расширенные возможности, обеспечивая динамическую оценку текста на основе пользовательских политик. Мы исследуем, как эта модель может быть использована в сферах, где стандартные модели не могут дать полного ответа, и выявляем ее потенциальное влияние на обеспечение безопасности и модерирование контента. ## Метод Мы предлагаем динамическую модель DynaGuard, которая динамически оценивает текст на основе пользовательских политик. Модель может работать в двух режимах: быстрой оценки для быстрого выявления нарушений политик и методом пошаговой рассуждений (chain-of-thought reasoning), который объясняет и обосновывает результаты. Мы использовали комбинацию методов машинного обучения и глубокого обучения для построения модели, которая может анализировать текст с высокой точностью. Также, мы разработали архитектуру модели, позволяющую легко адаптироваться к разным доменам приложений, реагируя на пользовательские политики в реальном времени. ## Результаты Мы проверили DynaGuard на различных наборах данных, включающих общие тексты и специальные сценарии приложений. Модель показала высокую точность в определении нарушений динамических политик, чему она успешно соответствует возможностям моделей статических полиций. Также, мы проверили ее возможность выполнять chain-of-thought reasoning, и она демонстрировала аналогичную точность с frontier reasoning моделями, но заметно быстрее. Эксперименты показали, что DynaGuard может быть эффективно применена в сферах, где требуется быстрая реакция на политические нарушения, без потери точности. ## Значимость Модель DynaGuard может применяться в различных сферах, таких как модерирование содержимого, видеомониторинг, медицинский контент мониторинг и другие приложения, где необходимо оценивать текст в режиме реального времени. Основные преимущества модели включают ее универсальность, мобильность и высокую скорость. Мы видим, что DynaGuard может положительно сказаться на обеспечении безопасности и управлении содержимым в различных цифровых средах, предоставляя более гибкие и эффективные инструменты для мониторинга. ## Выводы Наша модель DynaGuard демонстрирует перспективу динамических моделей в мониторинг

Abstract

Guardian models are used to supervise and moderate the outputs of user-facing chatbots, enforcing guardrails and detecting bad behaviors. Standard guardian models like LlamaGuard detect predefined, static categories of harms. We propose dynamic guardian models that evaluate text based on user-defined policies, making them useful for different application domains that are not addressed by standard guardian models. Our dynamic guardian models can be used for fast detection of policy violations or with chain-of-thought reasoning that articulates and justifies the model outputs. Our dynamic guardian models match static models in detection accuracy for static harm categories while identifying violations of free-form policies with accuracy comparable to frontier reasoning models in a fraction of the time.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DynaGuard: A Dynamic Guardrail Model With User-Defined Policies

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация