PakBBQ: A Culturally Adapted Bias Benchmark for QA

2508.10186v1 cs.CL, cs.AI, cs.CY, cs.LG 2025-08-15

Авторы:

Abdullah Hashmat, Muhammad Arham Mirza, Agha Ali Raza

Резюме на русском

#### Контекст С появлением Large Language Models (LLMs) в различных приложениях, важно обеспечить их справедливость и нейтральность во взаимодействии с различными пользователями. Однако, большинство LLMs разрабатываются и проверяются на данных, сфокусированных на западных стереотипах и языках, оставляя малозначимость для низкоресурсных языков и региональных контекстов. Это нарушает справедливость и эффективность моделей в региональном контексте. Работа PakBBQ, расширенного Bias Benchmark for Question Answering (BBQ), нацелена на решение этой проблемы. Она содержит более 214 шаблонов, 17180 QA-пар, охватывающих 8 категорий в 2 языках (английский и урду). В состав включено 8 стейт-биасов, включающих важные западные и региональные характеристики, такие как возраст, инвалидность, внешность, пол, социально-экономический статус, религиозные убеждения, региональная принадлежность и формальность языка. #### Метод Методология PakBBQ основывается на разработке шаблонов и QA-пар, отражающих региональные и культурные особенности. Множество нейтральных и негативно формулированных вопросов подвергались оценке в разных контекстах. Использовались несколько LLMs для оценки подвижности моделей по стейт-биасу. Эксперименты проводились с разными типами вопросов, чтобы изучить влияние фрейминга и нейтрализации стейт-биаса. Это дало возможность сравнить модели под влиянием неявной и явной дисамбигуации, чтобы продемонстрировать их устойчивость к различным формам вопросов. #### Результаты Опытные исследования показали следующие результаты: (i) увеличение точности в 12% при использовании дисамбигуации, (ii) наличие сильной биас-нейтрализации в урду по сравнению с английским, (iii) влияние на фрейминг, при котором отрицательно формулированные вопросы уменьшают стейт-биас. Эти результаты подтверждают важность разработки конкретных бенчмаров для региональных языков. Они также показывают, что простой фрейминг вопросов может сильно повлиять на результаты, помогая уменьшить биас в низкоресурсных языках. #### Значимость PakBBQ предлагает свой вклад в область создания справедливых и нейтральных моделей для низкоресурсных языков. Он может использоваться для тестирования LLMs на уровне биаса в региональных контекстах, таких как язык урду. Это решение может иметь значительный потенциал в области создания безопасных, справедливых и эффективных моделей для местных пользователей. Это также открывает пути для развития технологий повышения качества языковых моделей на уровне регионального образования. #### Выводы Работа

Abstract

With the widespread adoption of Large Language Models (LLMs) across various applications, it is empirical to ensure their fairness across all user communities. However, most LLMs are trained and evaluated on Western centric data, with little attention paid to low-resource languages and regional contexts. To address this gap, we introduce PakBBQ, a culturally and regionally adapted extension of the original Bias Benchmark for Question Answering (BBQ) dataset. PakBBQ comprises over 214 templates, 17180 QA pairs across 8 categories in both English and Urdu, covering eight bias dimensions including age, disability, appearance, gender, socio-economic status, religious, regional affiliation, and language formality that are relevant in Pakistan. We evaluate multiple multilingual LLMs under both ambiguous and explicitly disambiguated contexts, as well as negative versus non negative question framings. Our experiments reveal (i) an average accuracy gain of 12\% with disambiguation, (ii) consistently stronger counter bias behaviors in Urdu than in English, and (iii) marked framing effects that reduce stereotypical responses when questions are posed negatively. These findings highlight the importance of contextualized benchmarks and simple prompt engineering strategies for bias mitigation in low resource settings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

PakBBQ: A Culturally Adapted Bias Benchmark for QA

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

On the Detectability of LLM-Generated Text: What Exactly Is LLM-Generated Text?

SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Be...

Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewar...

AWARE, Beyond Sentence Boundaries: A Contextual Transformer Framework for Identi...

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

Навигация