BharatBBQ: A Multilingual Bias Benchmark for Question Answering in the Indian Context
2508.07090v1
cs.CL
2025-08-13
Авторы:
Aditya Tomar, Nihar Ranjan Sahoo, Pushpak Bhattacharyya
Резюме на русском
#### Контекст
Современные языковые модели (ЛМ), обученные большим объемом данных, часто подвержены субъективным и социальным биасам. Эти биасы могут привести к необоснованной оценке определенных групп, поддержки стереотипов и даже к ущербу индивидуальному или групповому благополучию. Оценка этих биасов становится ключевым заданием для создания справедливых и нейтральных ИИ-систем. Однако существующие бенчмарки, такие как BBQ, ориентированы на западные стереотипы и языковые контексты. Учитывая различия в социальных и культурных контекстах, необходимо разработать новые инструменты для оценки биаса в контексте Индии, где многоязычие и культурная сложность добавляют сложности.
#### Метод
Мы предлагаем BharatBBQ, первый многоязычный бенчмарк для оценки биаса в вопросах-ответах, призванный адаптироваться к индийскому социокультурному контексту. Бенчмарк охватывает 13 социальных категорий и 3 интерсекциональных групп, которые отражают существующие стереотипы в индийской культуре. Исходные данные для Хинди были расширены с помощью трансляции и проверки на другие языки. Этот процесс увеличил размер набора данных с 49 108 примеров на Хинди до 392 864 примеров на 8 языках. Мы проводили эксперименты с 5 многоязычными ЛМ-семействами в нулевой и несколько-шотных условиях, измерив их биазы и степени стереотипизации.
#### Результаты
Наши эксперименты показали, что многоязычные ЛМ часто продолжают поддерживать биазы, а в некоторых случаях даже усиливают их в индийских языках по сравнению с английским. Наиболее заметны биазы в категориях, таких как пол, религия и происхождение, а также в интерсекциональных группах. Индексы биаз и стереотипизации показали значительные различия между языками, подчеркнув необходимость локального подхода к оценке биаса в Индии.
#### Значимость
BharatBBQ может быть применен в разработке нейтральных языковых моделей и биас-анализаторов для индийских языков. Он предоставляет базу для изучения культурно-специфических стереотипов и позволяет сравнить биазы в разных языковых группах. Помимо этого, он мотивирует создание других локальных бенчмарков для других регионов, где язык и культура вносят уникальные трудности для разработки справедливых ИИ-систем.
#### Выводы
BharatBBQ демонстрирует необходимость разработки культурно подстроенных бенчмарков для оценки биаса в языковых моделях, особенно в многоязычных и культурно разнообразных регионах. Будущие исследования буду
Abstract
Evaluating social biases in language models (LMs) is crucial for ensuring
fairness and minimizing the reinforcement of harmful stereotypes in AI systems.
Existing benchmarks, such as the Bias Benchmark for Question Answering (BBQ),
primarily focus on Western contexts, limiting their applicability to the Indian
context. To address this gap, we introduce BharatBBQ, a culturally adapted
benchmark designed to assess biases in Hindi, English, Marathi, Bengali, Tamil,
Telugu, Odia, and Assamese. BharatBBQ covers 13 social categories, including 3
intersectional groups, reflecting prevalent biases in the Indian sociocultural
landscape. Our dataset contains 49,108 examples in one language that are
expanded using translation and verification to 392,864 examples in eight
different languages. We evaluate five multilingual LM families across zero and
few-shot settings, analyzing their bias and stereotypical bias scores. Our
findings highlight persistent biases across languages and social categories and
often amplified biases in Indian languages compared to English, demonstrating
the necessity of linguistically and culturally grounded benchmarks for bias
evaluation.
Ссылки и действия
Дополнительные ресурсы: