📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Juan Manuel Contreras
#### Контекст
Большие мультимодальные модели (LMMs), такие как DALL-E, Stable Diffusion и MidJourney, изменили ло LMMs have revolutionized text-to-image generation, but they risk perpetuating the harmful social biases in their training data.
Prior work has identified gender bias in these models, but methodological limitations prevented large-scale, comparable, cross-model analysis. To address this gap, we introduce the Aymara Image Fairness Evaluation, a benchmark for assessing social bias in AI-generated images.
#### Метод
Мы применяем Aymara Image Fairness Evaluation к 13 коммерческим LMMs, используя 75 процедурно генерируемых, гендерно-нейтральных запросов для создания изображений людей в стереотипически мужских, женских и не-стереотипных профессиональных сферах. Изображения оцениваются с помощью LLM-as-a-judge, система, которая анализирует 965 полученных изображений на уровне гендерного представления.
#### Результаты
Наши эксперименты показали следующее (p < .001 для всех): 1) LMMs не только воспроизводят, но и усиливают стереотипы занятий по полу, например, генерируя мужчин в 93.0% изображений для мужских стереотипов профессий, но только 22.5% для женских стереотипов; 2) модели демонстрируют сильный биаз в пользу мужчин, генерируя их в 68.3% случаев для нейтральных профессий; 3) градус стереотипизации варьируется сильно между моделями, с общим представлением мужчин от 46.7% до 73.3%.
#### Значимость
Наша работа предоставляет наиболее полный кросс-модельный бенчмарк гендерного биаса, выделяя значимость стандартизированных, автоматизированных инструментов для продвижения справедливости и ответственности в развитии AI.
#### Выводы
Мы подтвердили, что гендерный биаз в LMMs является не только результатом обучения на данных стереотипов, но и вытекает из конкретных дизайнных решений. Наша работа посвящена продвижению стандартов и систем для обеспечения справедливости в AI.
Annotation:
Large multimodal models (LMMs) have revolutionized text-to-image generation,
but they risk perpetuating the harmful social biases in their training data.
Prior work has identified gender bias in these models, but methodological
limitations prevented large-scale, comparable, cross-model analysis. To address
this gap, we introduce the Aymara Image Fairness Evaluation, a benchmark for
assessing social bias in AI-generated images. We test 13 commercially available
LMMs using 75 procedurally-generate...