Understanding and Mitigating Political Stance Cross-topic Generalization in Large Language Models

2508.02360v1 cs.CL 2025-08-09
Авторы:

Jiayi Zhang, Shu Yang, Junchao Wu, Derek F. Wong, Di Wang

Резюме на русском

Недостаточное понимание внутренних механизмов, способствующих нежелательной переобучению крупных языковых моделей в области политической позиции, ограничивает возможности их эффективного и безопасного применения в нейичных задачах. Данная работа рассматривает проблему cross-topic generalization в политическом контексте, когда переобучение на одной теме влияет негативно на позицию модели на других. Авторы предлагают Political Neuron Localization through Activation Contrasting (PNLAC), метод для идентификации political neurons, ответственных за затрагивание политических позиций в разных темах. Оказалось, что модели содержат два типа таких нейронов: общие и конкретные. На основе этих выводов предложено InhibitFT — метод файн-тюнинга, который снижает cross-topic generalization на 20%, сохраняя эффективность модели в работе со специфическими темами. Экспериментальные результаты показывают, что можно добиться значительных улучшений, отключив только 5% ответственных нейронов. Таким образом, данная работа способствует более стабильному и эффективному применению языковых моделей в области политики.

Abstract

Fine-tuning Large Language Models on a political topic will significantly manipulate their political stance on various issues and unintentionally affect their stance on unrelated topics. While previous studies have proposed this issue, there is still a lack of understanding regarding the internal representations of these stances and the mechanisms that lead to unintended cross-topic generalization. In this paper, we systematically explore the internal mechanisms underlying this phenomenon from a neuron-level perspective and how to mitigate the cross-topic generalization of political fine-tuning. Firstly, we propose Political Neuron Localization through Activation Contrasting (PNLAC) to identify two distinct types of political neurons: general political neurons, which govern stance across multiple political topics, and topic-specific neurons} that affect the model's political stance on individual topics. We find the existence of these political neuron types across four models and datasets through activation patching experiments. Leveraging these insights, we introduce InhibitFT, an inhibition-based fine-tuning method, effectively mitigating the cross-topic stance generalization. Experimental results demonstrate the robustness of identified neuron types across various models and datasets, and show that InhibitFT significantly reduces the cross-topic stance generalization by 20% on average, while preserving topic-specific performance. Moreover, we demonstrate that selectively inhibiting only 5% of neurons is sufficient to effectively mitigate the cross-topic stance generalization.

Ссылки и действия