SESGO: Spanish Evaluation of Stereotypical Generative Outputs
2509.03329v1
cs.CY, cs.CL
2025-09-05
Авторы:
Melissa Robles, Catalina Bernal, Denniss Raigoso, Mateo Dulce Rubio
Резюме на русском
## Контекст
В последние годы становится очевидным, что большинство оценок биаса в многоязычных моделях генерирующего текста сфокусированы на англоязычных данных, что ограничивает понимание потенциальных вредных эффектов в других языковых и культурных контекстах. Одним из примеров является исследование штейгеровских выводов в моделях на языке испанском, в частности, в контекстах Латинской Америки.
Поскольку многоязычные Лучшие Л LLM широко развернуты по всему миру, но оценка их биаса остается центрируется на англоязычной среде, существует опасность, что биасы в других регионах остаются незамеченными. Наша работа открывает новый подход к оценке биаса в испанском языке, особенно в культурно обоснованных контекстах Латинской Америки.
## Метод
Для оценки биаса в испанском языке мы предлагаем модульный подход, основанный на подготовленных вопросах, который включает в себя региональные и культурно специфичные выражения и пословицы. Мы используем 4,000+ запросов, охватывающие четыре социальных категории: пол, расовое принадлежность, социоэкономический статус и национальность.
Метод BBQ, заключающийся в использовании неявных вопросов, был адаптирован для выявления социальных биаса в испанском языке. Мы также предложили новый метрический подход, который комбинирует точность с направлением ошибки, чтобы лучше представлять модельную производительность и биас в обоих амбигуых и неамбигуых контекстах.
## Результаты
Мы провели эксперименты с несколькими моделями, включая State-of-the-Art LLM, и измерили их реакцию на стереотипы. Наши эксперименты показали существенные различия в поведении моделей в зависимости от языка и культурных контекстов. Например, модели показали разные уровни биаса в отношении пола и национальности, что неожиданно включило в себя упоминания о региональных стереотипах.
## Значимость
Наша работа имеет значимые потенциальные применения в области создания более культурно чувствительных моделей генерирующего текста. Она также показывает, что техники минимизации биаса, оптимизированные для английского, не эффективны для испанского языка из-за различий в культурных и региональных стереотипах.
## Выводы
Наша работа представляет первый систематический подход к оценке биаса в испанском языке в культурно окружающих контекстах. Мы предлагаем новую модель, которая может быть легко расширена для других языков и регионов. Наши результаты показывают наличие социальных биасов в топовых моделях, но такж
Abstract
This paper addresses the critical gap in evaluating bias in multilingual
Large Language Models (LLMs), with a specific focus on Spanish language within
culturally-aware Latin American contexts. Despite widespread global deployment,
current evaluations remain predominantly US-English-centric, leaving potential
harms in other linguistic and cultural contexts largely underexamined. We
introduce a novel, culturally-grounded framework for detecting social biases in
instruction-tuned LLMs. Our approach adapts the underspecified question
methodology from the BBQ dataset by incorporating culturally-specific
expressions and sayings that encode regional stereotypes across four social
categories: gender, race, socioeconomic class, and national origin. Using more
than 4,000 prompts, we propose a new metric that combines accuracy with the
direction of error to effectively balance model performance and bias alignment
in both ambiguous and disambiguated contexts. To our knowledge, our work
presents the first systematic evaluation examining how leading commercial LLMs
respond to culturally specific bias in the Spanish language, revealing varying
patterns of bias manifestation across state-of-the-art models. We also
contribute evidence that bias mitigation techniques optimized for English do
not effectively transfer to Spanish tasks, and that bias patterns remain
largely consistent across different sampling temperatures. Our modular
framework offers a natural extension to new stereotypes, bias categories, or
languages and cultural contexts, representing a significant step toward more
equitable and culturally-aware evaluation of AI systems in the diverse
linguistic environments where they operate.
Ссылки и действия
Дополнительные ресурсы: