Evaluating and comparing gender bias across four text-to-image models

2509.08004v1 cs.CY, cs.AI 2025-09-12
Авторы:

Zoya Hammad, Nii Longdon Sowah

Резюме на русском

## Контекст Актуальность исследования заключается в оценке и сравнении показателя гендерной биаса (байеса) у четырех текстово-изображенческих моделей (text-to-image models): Stable Diffusion XL (SDXL), Stable Diffusion Cascade (SC), DALL-E и Emu. Эти модели используются в области искусственного интеллекта для генерирования изображений по текстовым указаниям. Отсутствие инклюзивности и справедливости в таких моделях может привести к значительным проблемам в использовании AI в различных секторах, включая финансы, здравоохранение и развлечения. Неодинаковая представление гендера в AI моделях может дать пользователям ошибочное представление о равенстве значимости гендеров, что повлияет на решения и выводы, сделанные на основе этих моделей. ## Метод Для оценки гендерного баланса в моделях было использовано синтетическое тестирование (prompt-based testing) с разными вариациями текстовых приглашений (prompts). Мы проанализировали отношение мужчин к женщинам в изображениях, генерируемых каждой моделью. Набор данных был сформирован на основе целей проекта, использовался текстовый датасет с текстовыми запросами, относящимися к различным профессиям и ролям, которые покрывали многообразие гендерных репрезентаций. Мы исследовали не только численность, но и характер изображений, оценивая то, насколько гендерные характеристики отражались в результатах. ## Результаты Результаты показали, что Stable Diffusion XL и Stable Diffusion Cascade более склонны к более выраженному гендерному байесу в пользу мужчин. Отношение мужчин к женщинам было значительно выше в изображениях, генерируемых этими моделями. Однако DALL-E, в свою очередь, сгенерировало большую часть изображений, в которых женщины преобладали. Это может быть объяснено изменениями системы промптов в системе OpenAI. Emu от Meta AI, в свою очередь, показал более балансированные результаты с меньшим гендерным балансом, что может быть связано с использованием дополнительной информации о пользователе в процессе генерации изображений через WhatsApp. ## Значимость Полученные результаты имеют важное значение для развития нейросинтетических моделей, которые должны генерировать изображения с более высоким уровнем инклюзивности. Модели Emu и DALL-E могут стать примером, как улучшение технологий может привести к более справедливой представлению гендера в AI. В частности, Emu может быть использован в сфере робототехники, где гендерный баланс важен для эффективности коммуникаций. Более равноправительные модели как DALL-E могут быть применены в здравоохранении, где важно представление как мужчин, так и женщин на равных условиях.

Abstract

As we increasingly use Artificial Intelligence (AI) in decision-making for industries like healthcare, finance, e-commerce, and even entertainment, it is crucial to also reflect on the ethical aspects of AI, for example the inclusivity and fairness of the information it provides. In this work, we aimed to evaluate different text-to-image AI models and compare the degree of gender bias they present. The evaluated models were Stable Diffusion XL (SDXL), Stable Diffusion Cascade (SC), DALL-E and Emu. We hypothesized that DALL-E and Stable Diffusion, which are comparatively older models, would exhibit a noticeable degree of gender bias towards men, while Emu, which was recently released by Meta AI, would have more balanced results. As hypothesized, we found that both Stable Diffusion models exhibit a noticeable degree of gender bias while Emu demonstrated more balanced results (i.e. less gender bias). However, interestingly, Open AI's DALL-E exhibited almost opposite results, such that the ratio of women to men was significantly higher in most cases tested. Here, although we still observed a bias, the bias favored females over males. This bias may be explained by the fact that OpenAI changed the prompts at its backend, as observed during our experiment. We also observed that Emu from Meta AI utilized user information while generating images via WhatsApp. We also proposed some potential solutions to avoid such biases, including ensuring diversity across AI research teams and having diverse datasets.

Ссылки и действия