Automated Evaluation of Gender Bias Across 13 Large Multimodal Models
2509.07050v1
cs.CV, cs.AI, cs.CY, I.2.7; F.2.2
2025-09-11
Авторы:
Juan Manuel Contreras
Резюме на русском
#### Контекст
Большие мультимодальные модели (LMMs), такие как DALL-E, Stable Diffusion и MidJourney, изменили ло LMMs have revolutionized text-to-image generation, but they risk perpetuating the harmful social biases in their training data.
Prior work has identified gender bias in these models, but methodological limitations prevented large-scale, comparable, cross-model analysis. To address this gap, we introduce the Aymara Image Fairness Evaluation, a benchmark for assessing social bias in AI-generated images.
#### Метод
Мы применяем Aymara Image Fairness Evaluation к 13 коммерческим LMMs, используя 75 процедурно генерируемых, гендерно-нейтральных запросов для создания изображений людей в стереотипически мужских, женских и не-стереотипных профессиональных сферах. Изображения оцениваются с помощью LLM-as-a-judge, система, которая анализирует 965 полученных изображений на уровне гендерного представления.
#### Результаты
Наши эксперименты показали следующее (p < .001 для всех): 1) LMMs не только воспроизводят, но и усиливают стереотипы занятий по полу, например, генерируя мужчин в 93.0% изображений для мужских стереотипов профессий, но только 22.5% для женских стереотипов; 2) модели демонстрируют сильный биаз в пользу мужчин, генерируя их в 68.3% случаев для нейтральных профессий; 3) градус стереотипизации варьируется сильно между моделями, с общим представлением мужчин от 46.7% до 73.3%.
#### Значимость
Наша работа предоставляет наиболее полный кросс-модельный бенчмарк гендерного биаса, выделяя значимость стандартизированных, автоматизированных инструментов для продвижения справедливости и ответственности в развитии AI.
#### Выводы
Мы подтвердили, что гендерный биаз в LMMs является не только результатом обучения на данных стереотипов, но и вытекает из конкретных дизайнных решений. Наша работа посвящена продвижению стандартов и систем для обеспечения справедливости в AI.
Abstract
Large multimodal models (LMMs) have revolutionized text-to-image generation,
but they risk perpetuating the harmful social biases in their training data.
Prior work has identified gender bias in these models, but methodological
limitations prevented large-scale, comparable, cross-model analysis. To address
this gap, we introduce the Aymara Image Fairness Evaluation, a benchmark for
assessing social bias in AI-generated images. We test 13 commercially available
LMMs using 75 procedurally-generated, gender-neutral prompts to generate people
in stereotypically-male, stereotypically-female, and non-stereotypical
professions. We then use a validated LLM-as-a-judge system to score the 965
resulting images for gender representation. Our results reveal (p < .001 for
all): 1) LMMs systematically not only reproduce but actually amplify
occupational gender stereotypes relative to real-world labor data, generating
men in 93.0% of images for male-stereotyped professions but only 22.5% for
female-stereotyped professions; 2) Models exhibit a strong default-male bias,
generating men in 68.3% of the time for non-stereotyped professions; and 3) The
extent of bias varies dramatically across models, with overall male
representation ranging from 46.7% to 73.3%. Notably, the top-performing model
de-amplified gender stereotypes and approached gender parity, achieving the
highest fairness scores. This variation suggests high bias is not an inevitable
outcome but a consequence of design choices. Our work provides the most
comprehensive cross-model benchmark of gender bias to date and underscores the
necessity of standardized, automated evaluation tools for promoting
accountability and fairness in AI development.