BharatBBQ: A Multilingual Bias Benchmark for Question Answering in the Indian Context

2508.07090v1 cs.CL 2025-08-13

Авторы:

Aditya Tomar, Nihar Ranjan Sahoo, Pushpak Bhattacharyya

Резюме на русском

#### Контекст Современные языковые модели (ЛМ), обученные большим объемом данных, часто подвержены субъективным и социальным биасам. Эти биасы могут привести к необоснованной оценке определенных групп, поддержки стереотипов и даже к ущербу индивидуальному или групповому благополучию. Оценка этих биасов становится ключевым заданием для создания справедливых и нейтральных ИИ-систем. Однако существующие бенчмарки, такие как BBQ, ориентированы на западные стереотипы и языковые контексты. Учитывая различия в социальных и культурных контекстах, необходимо разработать новые инструменты для оценки биаса в контексте Индии, где многоязычие и культурная сложность добавляют сложности. #### Метод Мы предлагаем BharatBBQ, первый многоязычный бенчмарк для оценки биаса в вопросах-ответах, призванный адаптироваться к индийскому социокультурному контексту. Бенчмарк охватывает 13 социальных категорий и 3 интерсекциональных групп, которые отражают существующие стереотипы в индийской культуре. Исходные данные для Хинди были расширены с помощью трансляции и проверки на другие языки. Этот процесс увеличил размер набора данных с 49 108 примеров на Хинди до 392 864 примеров на 8 языках. Мы проводили эксперименты с 5 многоязычными ЛМ-семействами в нулевой и несколько-шотных условиях, измерив их биазы и степени стереотипизации. #### Результаты Наши эксперименты показали, что многоязычные ЛМ часто продолжают поддерживать биазы, а в некоторых случаях даже усиливают их в индийских языках по сравнению с английским. Наиболее заметны биазы в категориях, таких как пол, религия и происхождение, а также в интерсекциональных группах. Индексы биаз и стереотипизации показали значительные различия между языками, подчеркнув необходимость локального подхода к оценке биаса в Индии. #### Значимость BharatBBQ может быть применен в разработке нейтральных языковых моделей и биас-анализаторов для индийских языков. Он предоставляет базу для изучения культурно-специфических стереотипов и позволяет сравнить биазы в разных языковых группах. Помимо этого, он мотивирует создание других локальных бенчмарков для других регионов, где язык и культура вносят уникальные трудности для разработки справедливых ИИ-систем. #### Выводы BharatBBQ демонстрирует необходимость разработки культурно подстроенных бенчмарков для оценки биаса в языковых моделях, особенно в многоязычных и культурно разнообразных регионах. Будущие исследования буду

Abstract

Evaluating social biases in language models (LMs) is crucial for ensuring fairness and minimizing the reinforcement of harmful stereotypes in AI systems. Existing benchmarks, such as the Bias Benchmark for Question Answering (BBQ), primarily focus on Western contexts, limiting their applicability to the Indian context. To address this gap, we introduce BharatBBQ, a culturally adapted benchmark designed to assess biases in Hindi, English, Marathi, Bengali, Tamil, Telugu, Odia, and Assamese. BharatBBQ covers 13 social categories, including 3 intersectional groups, reflecting prevalent biases in the Indian sociocultural landscape. Our dataset contains 49,108 examples in one language that are expanded using translation and verification to 392,864 examples in eight different languages. We evaluate five multilingual LM families across zero and few-shot settings, analyzing their bias and stereotypical bias scores. Our findings highlight persistent biases across languages and social categories and often amplified biases in Indian languages compared to English, demonstrating the necessity of linguistically and culturally grounded benchmarks for bias evaluation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

BharatBBQ: A Multilingual Bias Benchmark for Question Answering in the Indian Context

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Morphologically-Informed Tokenizers for Languages with Non-Concatenative Morphol...

Nanbeige4-3B Technical Report: Exploring the Frontier of Small Language Models

LOCUS: A System and Method for Low-Cost Customization for Universal Specializati...

Policy-based Sentence Simplification: Replacing Parallel Corpora with LLM-as-a-J...

Knowing What's Missing: Assessing Information Sufficiency in Question Answering

Навигация