Understanding and Mitigating Political Stance Cross-topic Generalization in Large Language Models
2508.02360v1
cs.CL
2025-08-09
Авторы:
Jiayi Zhang, Shu Yang, Junchao Wu, Derek F. Wong, Di Wang
Резюме на русском
Недостаточное понимание внутренних механизмов, способствующих нежелательной переобучению крупных языковых моделей в области политической позиции, ограничивает возможности их эффективного и безопасного применения в нейичных задачах. Данная работа рассматривает проблему cross-topic generalization в политическом контексте, когда переобучение на одной теме влияет негативно на позицию модели на других. Авторы предлагают Political Neuron Localization through Activation Contrasting (PNLAC), метод для идентификации political neurons, ответственных за затрагивание политических позиций в разных темах. Оказалось, что модели содержат два типа таких нейронов: общие и конкретные. На основе этих выводов предложено InhibitFT — метод файн-тюнинга, который снижает cross-topic generalization на 20%, сохраняя эффективность модели в работе со специфическими темами. Экспериментальные результаты показывают, что можно добиться значительных улучшений, отключив только 5% ответственных нейронов. Таким образом, данная работа способствует более стабильному и эффективному применению языковых моделей в области политики.
Abstract
Fine-tuning Large Language Models on a political topic will significantly
manipulate their political stance on various issues and unintentionally affect
their stance on unrelated topics. While previous studies have proposed this
issue, there is still a lack of understanding regarding the internal
representations of these stances and the mechanisms that lead to unintended
cross-topic generalization. In this paper, we systematically explore the
internal mechanisms underlying this phenomenon from a neuron-level perspective
and how to mitigate the cross-topic generalization of political fine-tuning.
Firstly, we propose Political Neuron Localization through Activation
Contrasting (PNLAC) to identify two distinct types of political neurons:
general political neurons, which govern stance across multiple political
topics, and topic-specific neurons} that affect the model's political stance on
individual topics. We find the existence of these political neuron types across
four models and datasets through activation patching experiments. Leveraging
these insights, we introduce InhibitFT, an inhibition-based fine-tuning method,
effectively mitigating the cross-topic stance generalization. Experimental
results demonstrate the robustness of identified neuron types across various
models and datasets, and show that InhibitFT significantly reduces the
cross-topic stance generalization by 20% on average, while preserving
topic-specific performance. Moreover, we demonstrate that selectively
inhibiting only 5% of neurons is sufficient to effectively mitigate the
cross-topic stance generalization.
Ссылки и действия
Дополнительные ресурсы: