ReasoningGuard: Safeguarding Large Reasoning Models with Inference-time Safety Aha Moments

2508.04204v1 cs.CL, cs.AI 2025-08-09
Авторы:

Yuquan Wang, Mi Zhang, Yining Wang, Geng Hong, Xiaoyu You, Min Yang

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы Large Reasoning Models (LRMs) достигли значительных успехов в решении задач, требующих сложного резонующего мышления. Однако, несмотря на их продвинутость, эти модели по-прежнему уязвимы к генерации вредного контента, особенно на средних и поздних этапах своего процесса резонирования. Это является критической проблемой, поскольку неконтролируемая генерация может привести к распространению небезопасной или неэтичной информации. Существующие методы защиты, такие как fine-tuning и добавление экспертного знания, хоть и эффективны, но имеют существенные ограничения. Они часто требуют больших затрат на вычисления и управление, что делает их маломально масштабируемыми для практического применения. Кроме того, эти методы могут неэффективно справляться с новыми типами атак, особенно теми, которые нацелены на процесс резонирования моделей. Таким образом, существует потребность в разработке более эффективных и менее затратных методов защиты, которые могут обеспечить безопасность в процессе резонирования без необходимости дорогостоящих модификаций моделей. Это то место, где ReasoningGuard может сыграть ключевую роль. ## ПРЕДЛОЖЕННЫЙ МЕТОД ReasoningGuard представляет собой метод защиты, работающий во время вывода (inference-time), который инжектирует "aha moments" — точки безопасного отражения — для направления модели к безопасному и полезному резонующему процессу. Основная идея заключается в том, чтобы использовать внутреннее поведение внимания модели для того, чтобы точно определять критические моменты в процессе резонирования. В техническом плане, ReasoningGuard работает на основе мониторинга внутренних сигналов модели, таких как attention maps, чтобы выявить ключевые точки, где модель может потенциально сделать небезопасный выбор. Когда такая точка обнаружена, ReasoningGuard инициирует рефлексивный процесс, который помогает модели избежать небезопасных действий. Этот процесс рефлексии не только помогает избежать ошибок в текущем шаге, но также влияет на последующие шаги резонирования. Кроме того, ReasoningGuard использует стратегию scaling sampling во время декодирования, что позволяет выбирать оптимальный путь резонирования. Этот подход не только улучшает безопасность, но также помогает избежать чрезмерной строгости в безопасности, что может привести к неправильным или неестественным ответам. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности ReasoningGuard были проведены ряд экспериментов, использующих различные наборы данных и сценарии атак. Данные для экспериментов включали в себя различные типы задач, требующих резонирования, включая задачи, связанные с рискованными или неэтичными вопросами. ReasoningGuard был протестирован против трех типов jailbreak attacks, включая самые новые атаки, нацеленные на процесс резонирования LRMs. Результаты показали, что ReasoningGuard успешно справляется с этими атаками, показывая значительное улучшение по сравнению с существующими методами защиты. Кроме того, ReasoningGuard также был сравнен с семью другими методами защиты. Результаты показали, что ReasoningGuard не только эффективен в защите от атак, но также избегает общих проблем, таких как чрезмерная строгость в безопасности, которая может привести к неточным или неестественным ответам. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ ReasoningGuard имеет широкое применение в различных областях, где безопасность и этика генерации контента играют ключевую роль. Например, он может быть использован в областях, связанных с поддержкой пользователей, образованием, медицинской диагностике, и даже в системах поддержки принятия решений. Одним из ключевых преимуществ ReasoningGuard является его низкий уровень дополнительных затрат на вычисления, что делает его более масштабируемым для практического применения. Более того, он может быть легко интегрирован в существующие модели без необходимости многочисленных изменений в архитектуре модели. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ ReasoningGuard представляет собой важный шаг в направлении создания более безопасных и этических LRMs. Он эффективен в защите от различных типов атак, обеспечивая безопасность в процессе резонирования без необходимости дорогостоящих модификаций. В будущем, ReasoningGuard может быть расширен для работы с более широким классом моделей и задач, а также может быть адаптирован для работы в реальном времени. Это может открыть новые возможности для применения LRMs в критически важных областях, где безопасность и этика играют решающую роль.

Abstract

Large Reasoning Models (LRMs) have demonstrated impressive performance in reasoning-intensive tasks, but they remain vulnerable to harmful content generation, particularly in the mid-to-late steps of their reasoning processes. Existing defense mechanisms, however, rely on costly fine-tuning and additional expert knowledge, which restricts their scalability. In this work, we propose ReasoningGuard, an inference-time safeguard for LRMs, which injects timely safety aha moments to steer harmless while helpful reasoning processes. Leveraging the model's internal attention behavior, our approach accurately identifies critical points in the reasoning path, and triggers spontaneous, safety-oriented reflection. To safeguard both the subsequent reasoning steps and the final answers, we further implement a scaling sampling strategy during the decoding phase, selecting the optimal reasoning path. Inducing minimal extra inference cost, ReasoningGuard effectively mitigates three types of jailbreak attacks, including the latest ones targeting the reasoning process of LRMs. Our approach outperforms seven existing safeguards, achieving state-of-the-art safety defenses while effectively avoiding the common exaggerated safety issues.

Ссылки и действия