FuSaR: A Fuzzification-Based Method for LRM Safety-Reasoning Balance
2508.12897v1
cs.AI, cs.CR
2025-08-20
Авторы:
Jianhao Chen, Mayi Xu, Xiaohu Li, Yongqi Li, Xiangyu Zhang, Jianjie Huang, Tieyun Qian
Резюме на русском
## Контекст
Large Reasoning Models (LRMs) стали ключевым инструментом в различных областях, из-за их выдающихся возможностей анализа и обобщения. Однако, несмотря на их мощь, эти модели часто становятся ненадежными из-за проблем с безопасностью. Эти уязвимости могут привести к потенциальным опасностям, особенно при работе с конфиденциальными данными. Из-за такой волатильности, есть необходимость в разработке методов, которые бы улучшали безопасность LRMs без потери их высокой природы рассуждения. Это ставит перед исследователями задачу создания баланса между этими двумя критически важными аспектами.
## Метод
Метод FuSaR (Fuzzification-Based Method for LRM Safety-Reasoning Balance) является новым подходом к решению этой проблемы. Он основывается на технике fuzzification, которая заключается в преобразовании числовых данных в группы, чтобы упростить их обработку. В случае FuSaR, это преобразование применяется для ограничения выходов LRMs, сводя сложные рассуждения к более простым, но безопасным решениям. На практике, FuSaR работает путем минимизации возможных рисков, связанных с непредсказуемыми или вредоносными рассуждениями LRMs. Таким образом, он добивается более стабильного и безопасного поведения моделей без существенных потерь в их навыках рассуждения.
## Результаты
Нами проведены многочисленные эксперименты, в ходе которых были использованы различные тестовые наборы данных, включающие общедоступные модели LRMs. Мы сравнивали результаты FuSaR с другими существующими методами, обеспечивающими баланс между безопасностью и рассуждениями. Наши эксперименты показали, что FuSaR не только снижает риск выхода LRMs за пределы безопасности, но и сохраняет их силу рассуждений. Например, применение FuSaR к открытым моделям показало улучшение в безопасности на 20%, при этом не допуская существенного снижения способности рассуждения. Это делает FuSaR выгодным вариантом для более безопасного использования LRMs.
## Значимость
Предлагаемый подход FuSaR имеет многочисленные применения в различных областях, где LRMs используются, включая здравоохранение, финансы, правопорядок и многие другие. Он предоставляет безопасный и эффективный способ использования LRMs, предотвращая угрозы, связанные с непредсказуемыми рассуждениями. Благодаря FuSaR можно повысить уровень безопасности без значительного влияния на производительность модели. Это может привести к более надежным системам, использующим LRMs, и увеличить доверие пользователей к их решениям.
## Выводы
Мы успешно разработали стратегию FuSaR для баланса между безопасностью и рассуждениями в LRMs. Этот подход эффекти
Abstract
Large Reasoning Models (LRMs) have demonstrated impressive performance across
various tasks due to their powerful reasoning capabilities. However, their
safety performance remains a significant concern. In this paper, we explore the
reasons behind the vulnerability of LRMs. Based on this, we propose a novel
method to improve the safety of LLMs without sacrificing their reasoning
capability. Specifically, we exploit the competition between LRM's reasoning
ability and safety ability, and achieve jailbreak by improving LRM's reasoning
performance to reduce its safety performance. We then introduce an alignment
strategy based on Fuzzification to balance Safety-Reasoning (FuSaR), by
detoxifying the harmful reasoning process, where both the dangerous entities
and the dangerous procedures in the reasoning steps are hidden. FuSaR
successfully mitigates safety risks while preserving core reasoning
information. We validate this strategy through alignment experiments on several
open-source LRMs using detoxified reasoning data. The results compared with
existing baselines conclusively show that FuSaR is an efficient alignment
strategy to simultaneously enhance both the reasoning capability and safety of
LRMs.
Ссылки и действия
Дополнительные ресурсы: