NeuronTune: Fine-Grained Neuron Modulation for Balanced Safety-Utility Alignment in LLMs

2508.09473v1 cs.LG, cs.AI, cs.CL 2025-08-15

Авторы:

Birong Pan, Mayi Xu, Qiankun Pi, Jianhao Chen, Yuanyuan Zhu, Ming Zhong, Tieyun Qian

Резюме на русском

#### Контекст Современные Large Language Models (LLMs) обладают высоким потенциалом в различных областях, но сталкиваются с систематическими проблемами, связанными с безопасностью и качеством. Одной из ключевых проблем является нехватка баланса между безопасностью и полезностью. На данный момент используются методы, ориентированные на грубые вмешательства в слои моделей. Они не могут гарантировать точную корректировку действий модели в ответ на безопасность и качество. Данная проблема требует развития более тонких методов корректировки модели, которые бы позволили достичь сбалансированного взаимодействия между безопасностью и полезностью. #### Метод Предлагаемый метод NeuronTune основывается на тонкой модификации сигналов специфичных нейронов для достижения баланса между безопасностью и полезностью. Метод начинает с атрибуции, чтобы определить безопасность-критичные и полезность-критичные нейроны во всех слоях. Затем, NeuronTune применяет методы мета-обучения для адаптивного усиления сигналов безопасности и торможения сигналов полезности. Одним из ключевых преимуществ является то, что NeuronTune позволяет гибко контролировать степень вмешательства в функционировании модели, корректируя количество модифицируемых нейронов. Это делает NeuronTune универсальным инструментом для применения в различных сценариях, где требуется высокая безопасность или высокая полезность. #### Результаты На широком наборе экспериментов, включающих задачи с текстом и задачи безопасности, NeuronTune показал существенный выигрыш по сравнению с текущими технологиями. Он улучшил безопасность модели, сократив частоту провалов в тестах на вредоносные запросы, при этом сохранив высокую качественную генерацию текста и задачу, которые традиционно негативно отражаются после других методов корректировки. Эти результаты подтверждают, что NeuronTune является эффективным методом для достижения баланса между безопасностью и полезностью в LLMs. #### Значимость NeuronTune может быть применен в различных областях, где необходима высокая безопасность и качество текста. Например, в области медицины, юриспруденции, финансов, где любая деформация текста может привести к серьезным последствиям. Также NeuronTune позволяет решать проблемы, связанные с нежелательной генерацией ненормативной лексики или вранья, что является важной задачей для многих систем текстового понимания. Использование NeuronTune помогает сделать LLMs более надежными и стабильными в различных областях их применения. #### Выводы Результаты экспериментов подтверждают, что NeuronTune является эффектив

Abstract

Ensuring robust safety alignment while preserving utility is critical for the reliable deployment of Large Language Models (LLMs). However, current techniques fundamentally suffer from intertwined deficiencies: insufficient robustness against malicious attacks, frequent refusal of benign queries, degradation in generated text quality and general task performance--the former two reflecting deficits in robust safety and the latter constituting utility impairment. We trace these limitations to the coarse-grained layer-wise interventions in existing methods. To resolve this, we propose NeuronTune, a fine-grained framework that dynamically modulates sparse neurons to achieve simultaneous safety-utility optimization. Our approach first identifies safety-critical and utility-preserving neurons across all layers via attribution, then employs meta-learning to adaptively amplify safety-neuron activations and suppress utility-neuron activations. Crucially, NeuronTune enables tunable adjustment of intervention scope via neuron-count thresholds, supporting flexible adaptation to security-critical or utility-priority scenarios. Extensive experimental results demonstrate that our method significantly outperforms existing state-of-the-art technologies, achieving superior model safety while maintaining excellent utility.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

NeuronTune: Fine-Grained Neuron Modulation for Balanced Safety-Utility Alignment in LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация