Gender Stereotypes in Professional Roles Among Saudis: An Analytical Study of AI-Generated Images Using Language Models

2509.21466v1 cs.CV, cs.AI, cs.CL 2025-09-30
Авторы:

Khaloud S. AlKhalifah, Malak Mashaabi, Hend Al-Khalifa

Резюме на русском

#### Контекст В современном мире текстово-графические искусственные интеллекты (AI) становятся важной частью цифрового искусства и массовых средств связи. Однако эти технологии часто берут свои данные из реального мира, в котором существуют сильные стереотипы по поводу пола и культурных нюансов. Таким образом, при проведении анализа выходных данных визуализации моделей можно не только получить интересные стереотипы, но и изучить гендерные и культурные ошибки в текстово-графических моделях. В этом исследовании был исследован вклад моделей в продвижение гендерных стереотипов и культурных нюансов в профессиональных ролях в Саудовской Аравии. #### Метод Для исследования был использован текстовый ввод в 3 AI-моделях: ImageFX, DALL-E V3 и Grok. Авторы выбрали 56 разных профессий в Саудовской Аравии, причем каждый профессионал был представлен 5 различными изображениями. Создаваемые изображения были оценены с помощью 2 оценщиков, которые присутствовали во всей стадии процесса. Оценка производилась по 5 категориям: гендер, одежда и внешний вид, фон и среда, деятельность и взаимодействия, возраст. Таким образом, было получено 10,100 отдельных оценок. Для разрешения спорных ситуаций принял участие третий, более опытный эксперт. #### Результаты Результаты анализа показали сильные гендерные стереотипы в выходных данных. За счёт склонности моделей к мужским показателям, ImageFX выдавала 85% мужских целей, Grok - 86.6%, DALL-E V3 - 96%. Наиболее гендерные стереотипы отражались в профессиях лидерства и технических специалистов. Были отмечены культурные неточности в одежде, фоне и деятельности, которые отражались во всех трех моделях. Некоторые стереотипы, казавшиеся прогрессивными, на самом деле были вызваны культурными недопониманиями. #### Значимость Результаты имеют значимость в течение различных областей. В первую очередь, гендерные стереотипы могут быть использованы в контексте повышения создателей AI о наличии угроз касательно гендерных стереотипов в своих моделях. Также, анализ может быть применен в области развития культурных рамков для гендерной представленности в текстово-графических моделях. Более того, данные результаты могут помочь в создании более точных и культурно чувствительных моделей в будущем. #### Выводы В итоге, исследование показало, что текущие текстовые-графические AI-модели отображают существующие стереотипы, возникшие в результате обучения на человеческих данных. На основе этих выводов, авторы приходят к выводу, что необхо

Abstract

This study investigates the extent to which contemporary Text-to-Image artificial intelligence (AI) models perpetuate gender stereotypes and cultural inaccuracies when generating depictions of professionals in Saudi Arabia. We analyzed 1,006 images produced by ImageFX, DALL-E V3, and Grok for 56 diverse Saudi professions using neutral prompts. Two trained Saudi annotators evaluated each image on five dimensions: perceived gender, clothing and appearance, background and setting, activities and interactions, and age. A third senior researcher adjudicated whenever the two primary raters disagreed, yielding 10,100 individual judgements. The results reveal a strong gender imbalance, with ImageFX outputs being 85\% male, Grok 86.6\% male, and DALL-E V3 96\% male, indicating that DALL-E V3 exhibited the strongest overall gender stereotyping. This imbalance was most evident in leadership and technical roles. Moreover, cultural inaccuracies in clothing, settings, and depicted activities were frequently observed across all three models. Counter-stereotypical images often arise from cultural misinterpretations rather than genuinely progressive portrayals. We conclude that current models mirror societal biases embedded in their training data, generated by humans, offering only a limited reflection of the Saudi labour market's gender dynamics and cultural nuances. These findings underscore the urgent need for more diverse training data, fairer algorithms, and culturally sensitive evaluation frameworks to ensure equitable and authentic visual outputs.

Ссылки и действия