Automated Evaluation of Gender Bias Across 13 Large Multimodal Models

2509.07050v1 cs.CV, cs.AI, cs.CY, I.2.7; F.2.2 2025-09-11
Авторы:

Juan Manuel Contreras

Резюме на русском

#### Контекст Большие мультимодальные модели (LMMs), такие как DALL-E, Stable Diffusion и MidJourney, изменили ло LMMs have revolutionized text-to-image generation, but they risk perpetuating the harmful social biases in their training data. Prior work has identified gender bias in these models, but methodological limitations prevented large-scale, comparable, cross-model analysis. To address this gap, we introduce the Aymara Image Fairness Evaluation, a benchmark for assessing social bias in AI-generated images. #### Метод Мы применяем Aymara Image Fairness Evaluation к 13 коммерческим LMMs, используя 75 процедурно генерируемых, гендерно-нейтральных запросов для создания изображений людей в стереотипически мужских, женских и не-стереотипных профессиональных сферах. Изображения оцениваются с помощью LLM-as-a-judge, система, которая анализирует 965 полученных изображений на уровне гендерного представления. #### Результаты Наши эксперименты показали следующее (p < .001 для всех): 1) LMMs не только воспроизводят, но и усиливают стереотипы занятий по полу, например, генерируя мужчин в 93.0% изображений для мужских стереотипов профессий, но только 22.5% для женских стереотипов; 2) модели демонстрируют сильный биаз в пользу мужчин, генерируя их в 68.3% случаев для нейтральных профессий; 3) градус стереотипизации варьируется сильно между моделями, с общим представлением мужчин от 46.7% до 73.3%. #### Значимость Наша работа предоставляет наиболее полный кросс-модельный бенчмарк гендерного биаса, выделяя значимость стандартизированных, автоматизированных инструментов для продвижения справедливости и ответственности в развитии AI. #### Выводы Мы подтвердили, что гендерный биаз в LMMs является не только результатом обучения на данных стереотипов, но и вытекает из конкретных дизайнных решений. Наша работа посвящена продвижению стандартов и систем для обеспечения справедливости в AI.

Abstract

Large multimodal models (LMMs) have revolutionized text-to-image generation, but they risk perpetuating the harmful social biases in their training data. Prior work has identified gender bias in these models, but methodological limitations prevented large-scale, comparable, cross-model analysis. To address this gap, we introduce the Aymara Image Fairness Evaluation, a benchmark for assessing social bias in AI-generated images. We test 13 commercially available LMMs using 75 procedurally-generated, gender-neutral prompts to generate people in stereotypically-male, stereotypically-female, and non-stereotypical professions. We then use a validated LLM-as-a-judge system to score the 965 resulting images for gender representation. Our results reveal (p < .001 for all): 1) LMMs systematically not only reproduce but actually amplify occupational gender stereotypes relative to real-world labor data, generating men in 93.0% of images for male-stereotyped professions but only 22.5% for female-stereotyped professions; 2) Models exhibit a strong default-male bias, generating men in 68.3% of the time for non-stereotyped professions; and 3) The extent of bias varies dramatically across models, with overall male representation ranging from 46.7% to 73.3%. Notably, the top-performing model de-amplified gender stereotypes and approached gender parity, achieving the highest fairness scores. This variation suggests high bias is not an inevitable outcome but a consequence of design choices. Our work provides the most comprehensive cross-model benchmark of gender bias to date and underscores the necessity of standardized, automated evaluation tools for promoting accountability and fairness in AI development.

Ссылки и действия