FuSaR: A Fuzzification-Based Method for LRM Safety-Reasoning Balance

2508.12897v1 cs.AI, cs.CR 2025-08-20
Авторы:

Jianhao Chen, Mayi Xu, Xiaohu Li, Yongqi Li, Xiangyu Zhang, Jianjie Huang, Tieyun Qian

Резюме на русском

## Контекст Large Reasoning Models (LRMs) стали ключевым инструментом в различных областях, из-за их выдающихся возможностей анализа и обобщения. Однако, несмотря на их мощь, эти модели часто становятся ненадежными из-за проблем с безопасностью. Эти уязвимости могут привести к потенциальным опасностям, особенно при работе с конфиденциальными данными. Из-за такой волатильности, есть необходимость в разработке методов, которые бы улучшали безопасность LRMs без потери их высокой природы рассуждения. Это ставит перед исследователями задачу создания баланса между этими двумя критически важными аспектами. ## Метод Метод FuSaR (Fuzzification-Based Method for LRM Safety-Reasoning Balance) является новым подходом к решению этой проблемы. Он основывается на технике fuzzification, которая заключается в преобразовании числовых данных в группы, чтобы упростить их обработку. В случае FuSaR, это преобразование применяется для ограничения выходов LRMs, сводя сложные рассуждения к более простым, но безопасным решениям. На практике, FuSaR работает путем минимизации возможных рисков, связанных с непредсказуемыми или вредоносными рассуждениями LRMs. Таким образом, он добивается более стабильного и безопасного поведения моделей без существенных потерь в их навыках рассуждения. ## Результаты Нами проведены многочисленные эксперименты, в ходе которых были использованы различные тестовые наборы данных, включающие общедоступные модели LRMs. Мы сравнивали результаты FuSaR с другими существующими методами, обеспечивающими баланс между безопасностью и рассуждениями. Наши эксперименты показали, что FuSaR не только снижает риск выхода LRMs за пределы безопасности, но и сохраняет их силу рассуждений. Например, применение FuSaR к открытым моделям показало улучшение в безопасности на 20%, при этом не допуская существенного снижения способности рассуждения. Это делает FuSaR выгодным вариантом для более безопасного использования LRMs. ## Значимость Предлагаемый подход FuSaR имеет многочисленные применения в различных областях, где LRMs используются, включая здравоохранение, финансы, правопорядок и многие другие. Он предоставляет безопасный и эффективный способ использования LRMs, предотвращая угрозы, связанные с непредсказуемыми рассуждениями. Благодаря FuSaR можно повысить уровень безопасности без значительного влияния на производительность модели. Это может привести к более надежным системам, использующим LRMs, и увеличить доверие пользователей к их решениям. ## Выводы Мы успешно разработали стратегию FuSaR для баланса между безопасностью и рассуждениями в LRMs. Этот подход эффекти

Abstract

Large Reasoning Models (LRMs) have demonstrated impressive performance across various tasks due to their powerful reasoning capabilities. However, their safety performance remains a significant concern. In this paper, we explore the reasons behind the vulnerability of LRMs. Based on this, we propose a novel method to improve the safety of LLMs without sacrificing their reasoning capability. Specifically, we exploit the competition between LRM's reasoning ability and safety ability, and achieve jailbreak by improving LRM's reasoning performance to reduce its safety performance. We then introduce an alignment strategy based on Fuzzification to balance Safety-Reasoning (FuSaR), by detoxifying the harmful reasoning process, where both the dangerous entities and the dangerous procedures in the reasoning steps are hidden. FuSaR successfully mitigates safety risks while preserving core reasoning information. We validate this strategy through alignment experiments on several open-source LRMs using detoxified reasoning data. The results compared with existing baselines conclusively show that FuSaR is an efficient alignment strategy to simultaneously enhance both the reasoning capability and safety of LRMs.

Ссылки и действия