Toward Socially Aware Vision-Language Models: Evaluating Cultural Competence Through Multimodal Story Generation
2508.16762v1
cs.CL, cs.CY
2025-08-27
Авторы:
Arka Mukherjee, Shreya Ghosh
Резюме на русском
#### Контекст
Визион-лангуэдж модели (VLM) становятся все более распространенными в разнообразных культурных контекстах, что делает критически важным обеспечение их культурной компетентности в разработке ответственных искусственных интеллектов. До сих пор существующие исследования ограничивались оценкой культурной сознательности в текстовых моделях и задачах распознавания объектов на визуальных данных. Однако нет систематических оценок того, как VLM меняются при использовании культурных идентификаторов в текстовых как в визуальных входных данных для генерируемых задач. Мы предлагаем первую комплексную оценку культурной компетентности VLM с помощью задачи генерации культурно-ориентированных историй, разработав новую мультимодальную модель, которая оценивает воздействие культурных идентификаторов на выходные данные моделей.
#### Метод
Мы разработали мультимодальный фреймворк, который внедряет культурные идентификаторы в текстовые и визуальные признаки, и использует его для оценки 5 современных VLM. Модели оцениваются на задаче генерации культурно ориентированных историй, которая призвана измерить их способность адаптироваться к культурным контекстам. Мы использовали разнообразные данные, включая сценарии с различными культурными упоминаниями. Архитектура фреймворка включает в себя необходимые механизмы для внедрения культурных признаков и оценки их влияния на результаты.
#### Результаты
Наши эксперименты показали, что VLM демонстрируют различные способности к культурной адаптации. Было выявлено богатое культурно-специфичное лексикон, включая имена, термины семьи и географические маркеры. Однако мы обнаружили существенные различия в культурной компетентности между архитектурами моделей. Некоторые модели демонстрировали инверсный культурный выравниваний, тогда как другие не могли корректно адаптироваться к культурным контекстам. Также выявлены архитектурные ограничения: роботы показали нерегулярности в поведении в зависимости от архитектуры. Эксперименты кросс-модальной оценки показали, что культурно-уникальные выходы могут быть выявлены с помощью визуально-семантической похожести (28.7% внутри национальности против 0.2% между национальностями восприятия).
#### Значимость
Результаты имеют перспективы в различных областях, включая создание более культурно ориентированных генеративных моделей, повышение культурного сознания в системах AI и создание более включающих и культурно сознательных систем. Мы открыто выпуст
Abstract
As Vision-Language Models (VLMs) achieve widespread deployment across diverse
cultural contexts, ensuring their cultural competence becomes critical for
responsible AI systems. While prior work has evaluated cultural awareness in
text-only models and VLM object recognition tasks, no research has
systematically assessed how VLMs adapt outputs when cultural identity cues are
embedded in both textual prompts and visual inputs during generative tasks. We
present the first comprehensive evaluation of VLM cultural competence through
multimodal story generation, developing a novel multimodal framework that
perturbs cultural identity and evaluates 5 contemporary VLMs on a downstream
task: story generation. Our analysis reveals significant cultural adaptation
capabilities, with rich culturally-specific vocabulary spanning names, familial
terms, and geographic markers. However, we uncover concerning limitations:
cultural competence varies dramatically across architectures, some models
exhibit inverse cultural alignment, and automated metrics show architectural
bias contradicting human assessments. Cross-modal evaluation shows that
culturally distinct outputs are indeed detectable through visual-semantic
similarity (28.7% within-nationality vs. 0.2% cross-nationality recall), yet
visual-cultural understanding remains limited. In essence, we establish the
promise and challenges of cultural competence in multimodal AI. We publicly
release our codebase and data: https://github.com/ArkaMukherjee0/mmCultural
Ссылки и действия
Дополнительные ресурсы: