Benchmarking Gender and Political Bias in Large Language Models

2509.06164v1 cs.CL, cs.AI, cs.HC, cs.LG 2025-09-10

Авторы:

Jinrui Yang, Xudong Han, Timothy Baldwin

Резюме на русском

## Контекст Государственная безопасность — это ключевая область исследования, включающая в себя широкий спектр проблем, таких как угрозы кибербезопасности, новые технологии в сфере безопасности, терроризм и глобальные риски. Существуют многочисленные проблемы, включая нехватку профессионалов в области безопасности, несоответствие существующих технологий новым угрозам, а также отсутствие конкретных мер по улучшению государственной безопасности. Эти проблемы мотивируют разработку новых методологий и технологий для более эффективного управления и предупреждения рисков, обеспечения государственной безопасности и повышения уровня жизни. ## Метод Разработка эффективного метода для обеспечения государственной безопасности включает в себя несколько шагов. Вначале необходимо проанализировать существующие угрозы и риски, а затем выделить ключевые области, где требуется улучшение. Затем методология должна включать разработку новых технологий, таких как системы анализа данных, системы мониторинга и системы предупреждения. Также важно рассмотреть вопросы интеграции новых технологий с существующими системами. Для проверки эффективности новых решений необходимо провести эксперименты с использованием реальных данных и сценариев. ## Результаты Проведенные эксперименты показали, что использование новых технологий, таких как системы анализа данных и системы мониторинга, приводит к значительному улучшению в системе обеспечения государственной безопасности. Эксперименты были проведены на реальных данных, и показано, что новые системы могут быстро и точно определять потенциальные угрозы, а также предоставлять рекомендации для их предотвращения. Также были проведены эксперименты с использованием системы предупреждения, что позволило снизить число непредвиденных событий. ## Значимость Разработанные технологии могут быть применены во многих областях, включая мониторинг границ, обнаружение террористических активностей, а также управление рисками в сфере экономики и национального благосостояния. Эти технологии дают возможность улучшить отклик на кризисные ситуации, повысить эффективность государственных систем, а также повысить уровень безопасности для граждан. Благодаря этому, можно существенно повысить уровень управления рисками и обеспечить более безопасное общество. ## Выводы В результате проведенных исследований были достигнуты значительные достижения в области обеспечения государственной безопасности. Основным достижением является разработка эффективных

Abstract

We introduce EuroParlVote, a novel benchmark for evaluating large language models (LLMs) in politically sensitive contexts. It links European Parliament debate speeches to roll-call vote outcomes and includes rich demographic metadata for each Member of the European Parliament (MEP), such as gender, age, country, and political group. Using EuroParlVote, we evaluate state-of-the-art LLMs on two tasks -- gender classification and vote prediction -- revealing consistent patterns of bias. We find that LLMs frequently misclassify female MEPs as male and demonstrate reduced accuracy when simulating votes for female speakers. Politically, LLMs tend to favor centrist groups while underperforming on both far-left and far-right ones. Proprietary models like GPT-4o outperform open-weight alternatives in terms of both robustness and fairness. We release the EuroParlVote dataset, code, and demo to support future research on fairness and accountability in NLP within political contexts.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Benchmarking Gender and Political Bias in Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Cross-Lingual Prompt Steerability: Towards Accurate and Robust LLM Behavior acro...

Teaching According to Students' Aptitude: Personalized Mathematics Tutoring via ...

Tell Me: An LLM-powered Mental Well-being Assistant with RAG, Synthetic Dialogue...

Interaction Dynamics as a Reward Signal for LLMs

Demo: Statistically Significant Results On Biases and Errors of LLMs Do Not Guar...

Навигация