Toward Socially Aware Vision-Language Models: Evaluating Cultural Competence Through Multimodal Story Generation

2508.16762v1 cs.CL, cs.CY 2025-08-27

Авторы:

Arka Mukherjee, Shreya Ghosh

Резюме на русском

#### Контекст Визион-лангуэдж модели (VLM) становятся все более распространенными в разнообразных культурных контекстах, что делает критически важным обеспечение их культурной компетентности в разработке ответственных искусственных интеллектов. До сих пор существующие исследования ограничивались оценкой культурной сознательности в текстовых моделях и задачах распознавания объектов на визуальных данных. Однако нет систематических оценок того, как VLM меняются при использовании культурных идентификаторов в текстовых как в визуальных входных данных для генерируемых задач. Мы предлагаем первую комплексную оценку культурной компетентности VLM с помощью задачи генерации культурно-ориентированных историй, разработав новую мультимодальную модель, которая оценивает воздействие культурных идентификаторов на выходные данные моделей. #### Метод Мы разработали мультимодальный фреймворк, который внедряет культурные идентификаторы в текстовые и визуальные признаки, и использует его для оценки 5 современных VLM. Модели оцениваются на задаче генерации культурно ориентированных историй, которая призвана измерить их способность адаптироваться к культурным контекстам. Мы использовали разнообразные данные, включая сценарии с различными культурными упоминаниями. Архитектура фреймворка включает в себя необходимые механизмы для внедрения культурных признаков и оценки их влияния на результаты. #### Результаты Наши эксперименты показали, что VLM демонстрируют различные способности к культурной адаптации. Было выявлено богатое культурно-специфичное лексикон, включая имена, термины семьи и географические маркеры. Однако мы обнаружили существенные различия в культурной компетентности между архитектурами моделей. Некоторые модели демонстрировали инверсный культурный выравниваний, тогда как другие не могли корректно адаптироваться к культурным контекстам. Также выявлены архитектурные ограничения: роботы показали нерегулярности в поведении в зависимости от архитектуры. Эксперименты кросс-модальной оценки показали, что культурно-уникальные выходы могут быть выявлены с помощью визуально-семантической похожести (28.7% внутри национальности против 0.2% между национальностями восприятия). #### Значимость Результаты имеют перспективы в различных областях, включая создание более культурно ориентированных генеративных моделей, повышение культурного сознания в системах AI и создание более включающих и культурно сознательных систем. Мы открыто выпуст

Abstract

As Vision-Language Models (VLMs) achieve widespread deployment across diverse cultural contexts, ensuring their cultural competence becomes critical for responsible AI systems. While prior work has evaluated cultural awareness in text-only models and VLM object recognition tasks, no research has systematically assessed how VLMs adapt outputs when cultural identity cues are embedded in both textual prompts and visual inputs during generative tasks. We present the first comprehensive evaluation of VLM cultural competence through multimodal story generation, developing a novel multimodal framework that perturbs cultural identity and evaluates 5 contemporary VLMs on a downstream task: story generation. Our analysis reveals significant cultural adaptation capabilities, with rich culturally-specific vocabulary spanning names, familial terms, and geographic markers. However, we uncover concerning limitations: cultural competence varies dramatically across architectures, some models exhibit inverse cultural alignment, and automated metrics show architectural bias contradicting human assessments. Cross-modal evaluation shows that culturally distinct outputs are indeed detectable through visual-semantic similarity (28.7% within-nationality vs. 0.2% cross-nationality recall), yet visual-cultural understanding remains limited. In essence, we establish the promise and challenges of cultural competence in multimodal AI. We publicly release our codebase and data: https://github.com/ArkaMukherjee0/mmCultural

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Toward Socially Aware Vision-Language Models: Evaluating Cultural Competence Through Multimodal Story Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Identifying attributions of causality in political text

Sycophancy Claims about Language Models: The Missing Human-in-the-Loop

CAIRNS: Balancing Readability and Scientific Accuracy in Climate Adaptation Ques...

Gender Bias in Emotion Recognition by Large Language Models

Analysing Personal Attacks in U.S. Presidential Debates

Навигация