NeuronTune: Fine-Grained Neuron Modulation for Balanced Safety-Utility Alignment in LLMs
2508.09473v1
cs.LG, cs.AI, cs.CL
2025-08-15
Авторы:
Birong Pan, Mayi Xu, Qiankun Pi, Jianhao Chen, Yuanyuan Zhu, Ming Zhong, Tieyun Qian
Резюме на русском
#### Контекст
Современные Large Language Models (LLMs) обладают высоким потенциалом в различных областях, но сталкиваются с систематическими проблемами, связанными с безопасностью и качеством. Одной из ключевых проблем является нехватка баланса между безопасностью и полезностью. На данный момент используются методы, ориентированные на грубые вмешательства в слои моделей. Они не могут гарантировать точную корректировку действий модели в ответ на безопасность и качество. Данная проблема требует развития более тонких методов корректировки модели, которые бы позволили достичь сбалансированного взаимодействия между безопасностью и полезностью.
#### Метод
Предлагаемый метод NeuronTune основывается на тонкой модификации сигналов специфичных нейронов для достижения баланса между безопасностью и полезностью. Метод начинает с атрибуции, чтобы определить безопасность-критичные и полезность-критичные нейроны во всех слоях. Затем, NeuronTune применяет методы мета-обучения для адаптивного усиления сигналов безопасности и торможения сигналов полезности. Одним из ключевых преимуществ является то, что NeuronTune позволяет гибко контролировать степень вмешательства в функционировании модели, корректируя количество модифицируемых нейронов. Это делает NeuronTune универсальным инструментом для применения в различных сценариях, где требуется высокая безопасность или высокая полезность.
#### Результаты
На широком наборе экспериментов, включающих задачи с текстом и задачи безопасности, NeuronTune показал существенный выигрыш по сравнению с текущими технологиями. Он улучшил безопасность модели, сократив частоту провалов в тестах на вредоносные запросы, при этом сохранив высокую качественную генерацию текста и задачу, которые традиционно негативно отражаются после других методов корректировки. Эти результаты подтверждают, что NeuronTune является эффективным методом для достижения баланса между безопасностью и полезностью в LLMs.
#### Значимость
NeuronTune может быть применен в различных областях, где необходима высокая безопасность и качество текста. Например, в области медицины, юриспруденции, финансов, где любая деформация текста может привести к серьезным последствиям. Также NeuronTune позволяет решать проблемы, связанные с нежелательной генерацией ненормативной лексики или вранья, что является важной задачей для многих систем текстового понимания. Использование NeuronTune помогает сделать LLMs более надежными и стабильными в различных областях их применения.
#### Выводы
Результаты экспериментов подтверждают, что NeuronTune является эффектив
Abstract
Ensuring robust safety alignment while preserving utility is critical for the
reliable deployment of Large Language Models (LLMs). However, current
techniques fundamentally suffer from intertwined deficiencies: insufficient
robustness against malicious attacks, frequent refusal of benign queries,
degradation in generated text quality and general task performance--the former
two reflecting deficits in robust safety and the latter constituting utility
impairment. We trace these limitations to the coarse-grained layer-wise
interventions in existing methods. To resolve this, we propose NeuronTune, a
fine-grained framework that dynamically modulates sparse neurons to achieve
simultaneous safety-utility optimization. Our approach first identifies
safety-critical and utility-preserving neurons across all layers via
attribution, then employs meta-learning to adaptively amplify safety-neuron
activations and suppress utility-neuron activations. Crucially, NeuronTune
enables tunable adjustment of intervention scope via neuron-count thresholds,
supporting flexible adaptation to security-critical or utility-priority
scenarios. Extensive experimental results demonstrate that our method
significantly outperforms existing state-of-the-art technologies, achieving
superior model safety while maintaining excellent utility.
Ссылки и действия
Дополнительные ресурсы: