Gender Stereotypes in Professional Roles Among Saudis: An Analytical Study of AI-Generated Images Using Language Models
2509.21466v1
cs.CV, cs.AI, cs.CL
2025-09-30
Авторы:
Khaloud S. AlKhalifah, Malak Mashaabi, Hend Al-Khalifa
Резюме на русском
#### Контекст
В современном мире текстово-графические искусственные интеллекты (AI) становятся важной частью цифрового искусства и массовых средств связи. Однако эти технологии часто берут свои данные из реального мира, в котором существуют сильные стереотипы по поводу пола и культурных нюансов. Таким образом, при проведении анализа выходных данных визуализации моделей можно не только получить интересные стереотипы, но и изучить гендерные и культурные ошибки в текстово-графических моделях. В этом исследовании был исследован вклад моделей в продвижение гендерных стереотипов и культурных нюансов в профессиональных ролях в Саудовской Аравии.
#### Метод
Для исследования был использован текстовый ввод в 3 AI-моделях: ImageFX, DALL-E V3 и Grok. Авторы выбрали 56 разных профессий в Саудовской Аравии, причем каждый профессионал был представлен 5 различными изображениями. Создаваемые изображения были оценены с помощью 2 оценщиков, которые присутствовали во всей стадии процесса. Оценка производилась по 5 категориям: гендер, одежда и внешний вид, фон и среда, деятельность и взаимодействия, возраст. Таким образом, было получено 10,100 отдельных оценок. Для разрешения спорных ситуаций принял участие третий, более опытный эксперт.
#### Результаты
Результаты анализа показали сильные гендерные стереотипы в выходных данных. За счёт склонности моделей к мужским показателям, ImageFX выдавала 85% мужских целей, Grok - 86.6%, DALL-E V3 - 96%. Наиболее гендерные стереотипы отражались в профессиях лидерства и технических специалистов. Были отмечены культурные неточности в одежде, фоне и деятельности, которые отражались во всех трех моделях. Некоторые стереотипы, казавшиеся прогрессивными, на самом деле были вызваны культурными недопониманиями.
#### Значимость
Результаты имеют значимость в течение различных областей. В первую очередь, гендерные стереотипы могут быть использованы в контексте повышения создателей AI о наличии угроз касательно гендерных стереотипов в своих моделях. Также, анализ может быть применен в области развития культурных рамков для гендерной представленности в текстово-графических моделях. Более того, данные результаты могут помочь в создании более точных и культурно чувствительных моделей в будущем.
#### Выводы
В итоге, исследование показало, что текущие текстовые-графические AI-модели отображают существующие стереотипы, возникшие в результате обучения на человеческих данных. На основе этих выводов, авторы приходят к выводу, что необхо
Abstract
This study investigates the extent to which contemporary Text-to-Image
artificial intelligence (AI) models perpetuate gender stereotypes and cultural
inaccuracies when generating depictions of professionals in Saudi Arabia. We
analyzed 1,006 images produced by ImageFX, DALL-E V3, and Grok for 56 diverse
Saudi professions using neutral prompts. Two trained Saudi annotators evaluated
each image on five dimensions: perceived gender, clothing and appearance,
background and setting, activities and interactions, and age. A third senior
researcher adjudicated whenever the two primary raters disagreed, yielding
10,100 individual judgements. The results reveal a strong gender imbalance,
with ImageFX outputs being 85\% male, Grok 86.6\% male, and DALL-E V3 96\%
male, indicating that DALL-E V3 exhibited the strongest overall gender
stereotyping. This imbalance was most evident in leadership and technical
roles. Moreover, cultural inaccuracies in clothing, settings, and depicted
activities were frequently observed across all three models.
Counter-stereotypical images often arise from cultural misinterpretations
rather than genuinely progressive portrayals. We conclude that current models
mirror societal biases embedded in their training data, generated by humans,
offering only a limited reflection of the Saudi labour market's gender dynamics
and cultural nuances. These findings underscore the urgent need for more
diverse training data, fairer algorithms, and culturally sensitive evaluation
frameworks to ensure equitable and authentic visual outputs.
Ссылки и действия
Дополнительные ресурсы: