Seeing Symbols, Missing Cultures: Probing Vision-Language Models' Reasoning on Fire Imagery and Cultural Meaning

2509.23311v1 cs.CV, cs.AI, cs.CL 2025-10-01

Авторы:

Haorui Yu, Qiufeng Yi, Yijia Chu, Yang Zhao

Резюме на русском

## Контекст Визуально-языковые модели (Vision-Language Models, VLMs) широко используются для различных задач, включая классификацию изображений и описание их содержимого. Однако эти модели часто оказываются недостаточно культурно чувствительными, ограничиваясь лишь поверхностным соответствием символических признаков. Это проблема значительно затрудняет использование VLMs в культурно разнообразных окружениях, где точное понимание культурных контекстов крайне важно. Мотивация для этого исследования заключается в выявлении систематических недостатков VLMs в области культурного разума и предложении методов для их исправления, чтобы сделать эти модели более интерпретируемыми и справедливыми. ## Метод Для изучения проблемы восприятия культурных символов VLMs был разработан диагностический фреймворк, включающий классификационные и описательные задачи. Модели проверялись на трех типах изображений: циркуляционных фестивалях Западных стран, традиционных культурных событиях незападных обществ, и сценах с пожарами и спасательными мероприятиями. Для каждого класса изображений проанализированы ошибки моделей, в том числе лишения культурного контекста, грубые неточности и вводные суждения. Для проверки понимания моделей воспользовались интерпретируемыми методами, которые позволяют увидеть логику принятия решений. ## Результаты Эксперименты показали, что VLMs хорошо распознают циркуляционные фестивали Западных стран, но сталкиваются с трудностями при работе с традиционными событиями незападных обществ. Они часто отдают неточные или важные ответы, которые могут привести к ошибкам в жизненно важных ситуациях. Например, модели часто путают пожары с экстремальными событиями, что может привести к серьезной ошибке в ситуациях, требующих быстрого реагирования. Интерпретируемые методы показали, что модели часто опираются на символические признаки (например, огонь), не учитывая культурных контекстов, в которых они используются. ## Значимость Полученные результаты выявили важность создания культурно чувствительных VLMs для предотвращения культурных стереотипов и улучшения интерпретируемости. Эти модели могут иметь применение в сферах, таких как образование, медиа-анализ и спасательные операции, где понимание культурных контекстов критично. Выявленные проблемы демонстрируют необходимость развития методов, которые бы ставили во внимание не только точность, но и глубину культурного понимания. ## Выводы Данное исследование выявило систематические ошибки VLMs при распознавании культурного

Abstract

Vision-Language Models (VLMs) often appear culturally competent but rely on superficial pattern matching rather than genuine cultural understanding. We introduce a diagnostic framework to probe VLM reasoning on fire-themed cultural imagery through both classification and explanation analysis. Testing multiple models on Western festivals, non-Western traditions, and emergency scenes reveals systematic biases: models correctly identify prominent Western festivals but struggle with underrepresented cultural events, frequently offering vague labels or dangerously misclassifying emergencies as celebrations. These failures expose the risks of symbolic shortcuts and highlight the need for cultural evaluation beyond accuracy metrics to ensure interpretable and fair multimodal systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Seeing Symbols, Missing Cultures: Probing Vision-Language Models' Reasoning on Fire Imagery and Cultural Meaning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Traini...

NAS-LoRA: Empowering Parameter-Efficient Fine-Tuning for Visual Foundation Model...

Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Stream...

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcem...

Навигация