Steering Towards Fairness: Mitigating Political Bias in LLMs

2508.08846v1 cs.CL, cs.AI 2025-08-14
Авторы:

Afrozah Nadeem, Mark Dras, Usman Naseem

Резюме на русском

#### Контекст Появление больших языковых моделей (LLMs) изменило способ обработки текстовых данных, сделав его более эффективным и доступным. Однако существуют заметные проблемы, связанные с возникновением политической биаса в этих моделях. Такие модели часто отражают идеологические аспекты вводимых данных, что может привести к необъективности или даже упреждающему суждению в отношении определенных политических взглядов. Такое поведение может оказаться недопустимым в приложениях, где ценность нейтральности и принципности являются приоритетными. Таким образом, существует необходимость в разработке методов, которые позволят устранять или по крайней мере снижать политические биасы в LLMs. #### Метод Мы предлагаем фреймворк по обнаружению и устранению политического биаса в LLMs, основанный на анализе внутренних представлений моделей. Метод основывается на Political Compass Test (PCT), который использует задачи сравнения пар для извлечения и сравнения активаций моделей в процессе обработки текста. Мы разрабатывали комплексный подход, который позволяет проводить анализ по каждому слою модели, определяя наличие биаса по отдельным политическим аспектам. Модели, использованные в нашем исследовании, включают Mistral и DeepSeek. Этот подход позволяет получить более глубокое понимание того, как политические биасы возникают в моделях и как они могут быть устранены. #### Результаты Для исследования мы применили наш фреймворк к данным с Political Compass Test и проанализировали поведение моделей во время обработки текста. Наши результаты показали, что LLMs внутренними представлениями систематически заражаются политическим биасом, который проявляется на разных слоях модели. Дальнейший анализ показал, что эти биасы могут быть активно контролированы и устранены с помощью специальных стиринг-векторов, которые позволяют изменять поведение модели в соответствии с желаемым политическим курсом. Этот подход позволит улучшить не только точность, но и объективность результатов, получаемых от моделей. #### Значимость Наша работа имеет практическое значение для многих областей, где нейтральность и объективность текстовой обработки являются ключевыми факторами успеха. Например, в области новостных сервисов, единообразии социальных сетей и экспертных систем. Метод, предложенный в нашей статье, предоставляет новые возможности для минимизации политического биаса, не вводя изменений в сами результаты. Это может сделать модели более универсальными и надежными для различных пользователей и приложений. #### Выводы Мы демонстрируем, что политические биасы в LLMs могут быть обнаружены и устранены с ис

Abstract

Recent advancements in large language models (LLMs) have enabled their widespread use across diverse real-world applications. However, concerns remain about their tendency to encode and reproduce ideological biases, particularly along political and economic dimensions. In this paper, we propose a framework for probing and mitigating such biases in decoder-based LLMs through analysis of internal model representations. Grounded in the Political Compass Test (PCT), our method uses contrastive pairs to extract and compare hidden layer activations from models like Mistral and DeepSeek. We introduce a comprehensive activation extraction pipeline capable of layer-wise analysis across multiple ideological axes, revealing meaningful disparities linked to political framing. Our results show that decoder LLMs systematically encode representational bias across layers, which can be leveraged for effective steering vector-based mitigation. This work provides new insights into how political bias is encoded in LLMs and offers a principled approach to debiasing beyond surface-level output interventions.

Ссылки и действия