Beyond Content: How Grammatical Gender Shapes Visual Representation in Text-to-Image Models

2508.03199v1 cs.CL 2025-08-09

Авторы:

Muhammed Saeed, Shaina Raza, Ashmal Vayani, Muhammad Abdul-Mageed, Ali Emami, Shady Shehata

Резюме на русском

Резюме: В данной работе рассматривается вопрос, как грамматический род в языках с предметным склонением влияет на визуальные представления в Text-to-Image (T2I) моделях. Мы представляем кросс-лингвистический бенчмарк, охватывающий пять грамматически родных языков (французский, испанский, немецкий, итальянский, русский) и два гендерно-нейтральных (английский, китайский), с 800 уникальными запросами, порождающими 28 800 изображений в трех современных T2I моделях. Наши результаты показывают, что грамматический род оказывает систематическое влияние на генерируемые изображения: мужской грамматический род увеличивает представление мужчин до 73% (в сравнении с 22% в английском языке), а женский грамматический род увеличивает представление женщин до 38% (в сравнении с 28% в английском). Эффекты варьируются в зависимости от ресурсов языка и архитектуры модели, с языками высокого ресурса проявляя сильнейший вклад. Наши находки указывают, что структура языка, а не только его содержимое, влияет на визуальные выводы моделей, позволяя изучать новую сферу биаса и справедливости в мультилингвистических, мультимодальных системах.

Abstract

Research on bias in Text-to-Image (T2I) models has primarily focused on demographic representation and stereotypical attributes, overlooking a fundamental question: how does grammatical gender influence visual representation across languages? We introduce a cross-linguistic benchmark examining words where grammatical gender contradicts stereotypical gender associations (e.g., ``une sentinelle'' - grammatically feminine in French but referring to the stereotypically masculine concept ``guard''). Our dataset spans five gendered languages (French, Spanish, German, Italian, Russian) and two gender-neutral control languages (English, Chinese), comprising 800 unique prompts that generated 28,800 images across three state-of-the-art T2I models. Our analysis reveals that grammatical gender dramatically influences image generation: masculine grammatical markers increase male representation to 73\% on average (compared to 22\% with gender-neutral English), while feminine grammatical markers increase female representation to 38\% (compared to 28\% in English). These effects vary systematically by language resource availability and model architecture, with high-resource languages showing stronger effects. Our findings establish that language structure itself, not just content, shapes AI-generated visual outputs, introducing a new dimension for understanding bias and fairness in multilingual, multimodal systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Beyond Content: How Grammatical Gender Shapes Visual Representation in Text-to-Image Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Nexus: Higher-Order Attention Mechanisms in Transformers

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

ClusterFusion: Hybrid Clustering with Embedding Guidance and LLM Adaptation

SQuARE: Structured Query & Adaptive Retrieval Engine For Tabular Formats

RapidUn: Influence-Driven Parameter Reweighting for Efficient Large Language Mod...

Навигация