Seeing Culture: A Benchmark for Visual Reasoning and Grounding

2509.16517v1 cs.CV, cs.AI, cs.CL, cs.MM 2025-09-24

Авторы:

Burak Satar, Zhixin Ma, Patrick A. Irawan, Wilfried A. Mulyawan, Jing Jiang, Ee-Peng Lim, Chong-Wah Ngo

Резюме на русском

## Контекст В настоящее время многомодальные языково-визуальные модели (VLMs) достигли значительных успехов в решении задач, требующих одновременного понимания визуальных и текстовых данных. Особую массу работ вызывают задачи, связанные с культурным разумом, возникшие вместе с появлением новых культурных данных. Однако многие из этих данных недостаточно отражают культурные характеристики, а также представляют недостаточное количество культур, особенно относительно культурных реалий, которые часто остаются за пределами внимания. Для устранения этих недостатков и обогащения культурного понимания визуально-текстовых моделей мы предлагаем бенчмарк Seeing Culture Benchmark (SCB). Он сосредоточен на культурном разуме, обеспечивая VLMs сложными задачами, включающими визуальное рассуждение и пространственное обозначение. ## Метод SCB основывается на систематической организации визуальных вариантов во время процесса рассуждения. Первый этап заключается в выборе правильной вариантной группы в виде множественного выбора с использованием мультимодального вопроса-ответа (VQA). Затем, в случае правильного выбора, происходит второй этап: сегментация культурного предмета, который служит доказательством культурного разума. Варианты в первом этапе разделены на три категории: варианты из одной страны, из разных стран, и смешанные варианты. Каждая категория включает в себя варианты, принадлежащие одной категории. Бенчмарк включает 1065 изображений, представляющих 138 культурных предметов из пяти категорий культур, охватывающих семь стран Юго-Восточной Азии. В настоящее время эта региональная культура часто остается недостаточно изученной. Бенчмарк также включает 3178 вопросов, включая 1093 уникальных вопросов, ручному анализу и контролю. ## Результаты Мы провели эксперименты с несколькими моделями мультимодального понимания, такими как LXMERT, VisualBERT, VL-BERT и UNITER. Эксперименты показали, что даже самые современные модели сталкиваются с трудностями при решении задач, связанных с культурным разумом и пространственным обозначением. Особенно большой пробел отмечен в случае культур, которые часто остаются за пределами внимания. SCB эффективно выявляет эти проблемы, объединяя в себе вопросы многомодального рассуждения и пространственного обозначения. ## Значимость SCB может применяться в области культурного понимания, визуального рассуждения и пространственного обозначения. Оно предоставляет возможность выявления проблем, связанных с культурным разумом, которые часто не учитываются другими б

Abstract

Multimodal vision-language models (VLMs) have made substantial progress in various tasks that require a combined understanding of visual and textual content, particularly in cultural understanding tasks, with the emergence of new cultural datasets. However, these datasets frequently fall short of providing cultural reasoning while underrepresenting many cultures. In this paper, we introduce the Seeing Culture Benchmark (SCB), focusing on cultural reasoning with a novel approach that requires VLMs to reason on culturally rich images in two stages: i) selecting the correct visual option with multiple-choice visual question answering (VQA), and ii) segmenting the relevant cultural artifact as evidence of reasoning. Visual options in the first stage are systematically organized into three types: those originating from the same country, those from different countries, or a mixed group. Notably, all options are derived from a singular category for each type. Progression to the second stage occurs only after a correct visual option is chosen. The SCB benchmark comprises 1,065 images that capture 138 cultural artifacts across five categories from seven Southeast Asia countries, whose diverse cultures are often overlooked, accompanied by 3,178 questions, of which 1,093 are unique and meticulously curated by human annotators. Our evaluation of various VLMs reveals the complexities involved in cross-modal cultural reasoning and highlights the disparity between visual reasoning and spatial grounding in culturally nuanced scenarios. The SCB serves as a crucial benchmark for identifying these shortcomings, thereby guiding future developments in the field of cultural reasoning. https://github.com/buraksatar/SeeingCulture

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Seeing Culture: A Benchmark for Visual Reasoning and Grounding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answeri...

MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding

Recurrence Meets Transformers for Universal Multimodal Retrieval

Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on Materials C...

Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimiz...

Навигация