📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Automated Evaluation of Gender Bias Across 13 Large Multimodal Models

2025-09-11

Авторы:

Juan Manuel Contreras

#### Контекст Большие мультимодальные модели (LMMs), такие как DALL-E, Stable Diffusion и MidJourney, изменили ло LMMs have revolutionized text-to-image generation, but they risk perpetuating the harmful social biases in their training data. Prior work has identified gender bias in these models, but methodological limitations prevented large-scale, comparable, cross-model analysis. To address this gap, we introduce the Aymara Image Fairness Evaluation, a benchmark for assessing social bias in AI-generated images. #### Метод Мы применяем Aymara Image Fairness Evaluation к 13 коммерческим LMMs, используя 75 процедурно генерируемых, гендерно-нейтральных запросов для создания изображений людей в стереотипически мужских, женских и не-стереотипных профессиональных сферах. Изображения оцениваются с помощью LLM-as-a-judge, система, которая анализирует 965 полученных изображений на уровне гендерного представления. #### Результаты Наши эксперименты показали следующее (p < .001 для всех): 1) LMMs не только воспроизводят, но и усиливают стереотипы занятий по полу, например, генерируя мужчин в 93.0% изображений для мужских стереотипов профессий, но только 22.5% для женских стереотипов; 2) модели демонстрируют сильный биаз в пользу мужчин, генерируя их в 68.3% случаев для нейтральных профессий; 3) градус стереотипизации варьируется сильно между моделями, с общим представлением мужчин от 46.7% до 73.3%. #### Значимость Наша работа предоставляет наиболее полный кросс-модельный бенчмарк гендерного биаса, выделяя значимость стандартизированных, автоматизированных инструментов для продвижения справедливости и ответственности в развитии AI. #### Выводы Мы подтвердили, что гендерный биаз в LMMs является не только результатом обучения на данных стереотипов, но и вытекает из конкретных дизайнных решений. Наша работа посвящена продвижению стандартов и систем для обеспечения справедливости в AI.

Annotation:

Large multimodal models (LMMs) have revolutionized text-to-image generation, but they risk perpetuating the harmful social biases in their training data. Prior work has identified gender bias in these models, but methodological limitations prevented large-scale, comparable, cross-model analysis. To address this gap, we introduce the Aymara Image Fairness Evaluation, a benchmark for assessing social bias in AI-generated images. We test 13 commercially available LMMs using 75 procedurally-generate...

ID: 2509.07050v1 cs.CV, cs.AI, cs.CY, I.2.7; F.2.2

arXiv PDF