Bias Amplification in Stable Diffusion's Representation of Stigma Through Skin Tones and Their Homogeneity

2508.17465v1 cs.CY, cs.AI, K.4.2 2025-08-27
Авторы:

Kyra Wilson, Sourojit Ghosh, Aylin Caliskan

Резюме на русском

## Контекст Текстово-изображенческие генераторы (T2Is) — мощные инструменты, которые могут генерировать изображения на основе текстовых запросов. Однако они также являются источником новых проблем, включая усиление стереотипов. Например, распространенное во многих областях мнение о том, что люди с темнотой кожей несут культурные или экономические стереотипы, может быть усилено из-за неосторожности в обучении генераторов. Это может привести к углублению существующих расовых и социальных дискриминаций. Мы исследуем, насколько глубоко эти проблемы влияют на T2I-модели, в частности на Stable Diffusion, и как они могут усиливать стереотипы, связанные с цветовой плоскостью кожи. ## Метод Мы использовали 93 стigmatизированных идентификаторов, которые могут привести к социальной дискриминации, такие как сексуальное ориентирование и религиозное убеждение. Для каждого идентификатора мы генерировали изображения с помощью трех версий Stable Diffusion (v1.5, v2.1, XL). Мы измеряли диапазон цветов кожи, неоднородность и разнообразие в изображениях результатов. Для того, чтобы метрики соответствовали человеческому восприятию, мы разработали новую методику. Также мы использовали сравнение с реальными данными лиц, чтобы доказать, насколько модели Stable Diffusion различаются от реальных случаев. ## Результаты Мы обнаружили, что Stable Diffusion XL генерирует изображения с значительно более темной кожей и меньшей красностью, чем предыдущие версии или даже реальные лица. Это уровень темноты кожи, который может сильно усиливать стереотипы по расовой принадлежности. Модель XL также показывает меньшую разнообразность в цвете кожи по сравнению с другими моделями и даже с реальными нормальными лицами. Например, 60,29% стigmatизированных идентификаторов были изображены с меньшей разнообразностью кожными тонами по сравнению с нестigmatизированными. Более того, Stable Diffusion XL гораздо более часто генерирует изображения с одним и тем же цветом кожи для разных стigmatизированных идентификаторов, что усиливает стереотип о том, что люди разных рас имеют одинаковые цвета кожи. ## Значимость Эти результаты имеют важное значение в области искусственного интеллекта, компьютерного зрения и социальных сетей. Stable Diffusion XL широко используется для построения изображений и текстов, и его способность генерировать более стереотипные изображения может ускорить проблемы, связанные с расу и социальным равенством. Мы также показали, что во время процесса обучения модели генерируются менее разнообразные изображения с темным цветом кожи, что может привести к углублени

Abstract

Text-to-image generators (T2Is) are liable to produce images that perpetuate social stereotypes, especially in regards to race or skin tone. We use a comprehensive set of 93 stigmatized identities to determine that three versions of Stable Diffusion (v1.5, v2.1, and XL) systematically associate stigmatized identities with certain skin tones in generated images. We find that SD XL produces skin tones that are 13.53% darker and 23.76% less red (both of which indicate higher likelihood of societal discrimination) than previous models and perpetuate societal stereotypes associating people of color with stigmatized identities. SD XL also shows approximately 30% less variability in skin tones when compared to previous models and 18.89-56.06% compared to human face datasets. Measuring variability through metrics which directly correspond to human perception suggest a similar pattern, where SD XL shows the least amount of variability in skin tones of people with stigmatized identities and depicts most (60.29%) stigmatized identities as being less diverse than non-stigmatized identities. Finally, SD shows more homogenization of skin tones of racial and ethnic identities compared to other stigmatized or non-stigmatized identities, reinforcing incorrect equivalence of biologically-determined skin tone and socially-constructed racial and ethnic identity. Because SD XL is the largest and most complex model and users prefer its generations compared to other models examined in this study, these findings have implications for the dynamics of bias amplification in T2Is, increasing representational harms and challenges generating diverse images depicting people with stigmatized identities.

Ссылки и действия

Связанные статьи

The Stories We Govern By: AI, Risk, and the Power of Imaginaries

## Контекст Артифициальная интеллигенция (AI) становится все более важной сферой исследований, приложений и регулирован...

2025-08-19