Bias Amplification in Stable Diffusion's Representation of Stigma Through Skin Tones and Their Homogeneity
2508.17465v1
cs.CY, cs.AI, K.4.2
2025-08-27
Авторы:
Kyra Wilson, Sourojit Ghosh, Aylin Caliskan
Резюме на русском
## Контекст
Текстово-изображенческие генераторы (T2Is) — мощные инструменты, которые могут генерировать изображения на основе текстовых запросов. Однако они также являются источником новых проблем, включая усиление стереотипов. Например, распространенное во многих областях мнение о том, что люди с темнотой кожей несут культурные или экономические стереотипы, может быть усилено из-за неосторожности в обучении генераторов. Это может привести к углублению существующих расовых и социальных дискриминаций. Мы исследуем, насколько глубоко эти проблемы влияют на T2I-модели, в частности на Stable Diffusion, и как они могут усиливать стереотипы, связанные с цветовой плоскостью кожи.
## Метод
Мы использовали 93 стigmatизированных идентификаторов, которые могут привести к социальной дискриминации, такие как сексуальное ориентирование и религиозное убеждение. Для каждого идентификатора мы генерировали изображения с помощью трех версий Stable Diffusion (v1.5, v2.1, XL). Мы измеряли диапазон цветов кожи, неоднородность и разнообразие в изображениях результатов. Для того, чтобы метрики соответствовали человеческому восприятию, мы разработали новую методику. Также мы использовали сравнение с реальными данными лиц, чтобы доказать, насколько модели Stable Diffusion различаются от реальных случаев.
## Результаты
Мы обнаружили, что Stable Diffusion XL генерирует изображения с значительно более темной кожей и меньшей красностью, чем предыдущие версии или даже реальные лица. Это уровень темноты кожи, который может сильно усиливать стереотипы по расовой принадлежности. Модель XL также показывает меньшую разнообразность в цвете кожи по сравнению с другими моделями и даже с реальными нормальными лицами. Например, 60,29% стigmatизированных идентификаторов были изображены с меньшей разнообразностью кожными тонами по сравнению с нестigmatизированными. Более того, Stable Diffusion XL гораздо более часто генерирует изображения с одним и тем же цветом кожи для разных стigmatизированных идентификаторов, что усиливает стереотип о том, что люди разных рас имеют одинаковые цвета кожи.
## Значимость
Эти результаты имеют важное значение в области искусственного интеллекта, компьютерного зрения и социальных сетей. Stable Diffusion XL широко используется для построения изображений и текстов, и его способность генерировать более стереотипные изображения может ускорить проблемы, связанные с расу и социальным равенством. Мы также показали, что во время процесса обучения модели генерируются менее разнообразные изображения с темным цветом кожи, что может привести к углублени
Abstract
Text-to-image generators (T2Is) are liable to produce images that perpetuate
social stereotypes, especially in regards to race or skin tone. We use a
comprehensive set of 93 stigmatized identities to determine that three versions
of Stable Diffusion (v1.5, v2.1, and XL) systematically associate stigmatized
identities with certain skin tones in generated images. We find that SD XL
produces skin tones that are 13.53% darker and 23.76% less red (both of which
indicate higher likelihood of societal discrimination) than previous models and
perpetuate societal stereotypes associating people of color with stigmatized
identities. SD XL also shows approximately 30% less variability in skin tones
when compared to previous models and 18.89-56.06% compared to human face
datasets. Measuring variability through metrics which directly correspond to
human perception suggest a similar pattern, where SD XL shows the least amount
of variability in skin tones of people with stigmatized identities and depicts
most (60.29%) stigmatized identities as being less diverse than non-stigmatized
identities. Finally, SD shows more homogenization of skin tones of racial and
ethnic identities compared to other stigmatized or non-stigmatized identities,
reinforcing incorrect equivalence of biologically-determined skin tone and
socially-constructed racial and ethnic identity. Because SD XL is the largest
and most complex model and users prefer its generations compared to other
models examined in this study, these findings have implications for the
dynamics of bias amplification in T2Is, increasing representational harms and
challenges generating diverse images depicting people with stigmatized
identities.
Ссылки и действия
Дополнительные ресурсы: