RCI: A Score for Evaluating Global and Local Reasoning in Multimodal Benchmarks
2509.23673v1
cs.CV, cs.AI, cs.CL, cs.MM, 68T45, 68T50, I.2.7; I.2.10; I.4.7; I.4.8
2025-10-01
Авторы:
Amit Agarwal, Hitesh Laxmichand Patel, Srikant Panda, Hansa Meghwani, Jyotika Singh, Karan Dua, Paul Li, Tao Sheng, Sujith Ravi, Dan Roth
Резюме на русском
## Контекст
Multimodal знания, объединяющие визуальные и текстовые данные, стали важной областью исследований в искусственном интеллекте. Многие Multimodal Large Language Models (MLLMs) показали выдающиеся результаты на визуально-языковых бенчмарках. Однако, существует сомнение в том, насколько эти бенчмарки оценивают настоящую возможность глобального логического рассуждения или разрешают достижение успеха через локальные визуальные признаки. На данный момент, существующие методы оценки неявно измеряют это различие, что способствует субъективному выбору данных и ограничивает потенциал моделей в реальных мировых сценариях.
## Метод
Региональный Разумеющий Индекс (RCI) — первый модельный подход, который измеряет значимость глобального и локального визуального смысла в задаче. Он сравнивает производительность модели на изображениях и их отдельных частях, выявляя наличие зависимости от глобальных или локальных признаков. RCI использует референтную модель для сравнения производительности на изображениях и их частях, чтобы определить, требуют ли задачи глобального понимания или могут быть решены локальными признаками.
## Результаты
При проверке RCI на 13 широко используемых визуально-языковых бенчмарках было выявлено, что большинство из них призначивают локальные признаки, что приводит к сильной зависимости от пространственных признаков. Это может привести к нежелательным последствиям в реальных мировых сценариях. Таким образом, RCI оказывается важной инструментом для диагностики и устранения этих проблем, что позволяет создавать более балансированные бенчмарки и развивать реальности-нацеленные модели.
## Значимость
RCI может применяться в широком спектре приложений, включая диагностику проблем в текущих бенчмарках, оптимизацию точности моделей и развитие бенчмарков, которые стимулируют развитие реальности-нацеленных моделей. Он обеспечивает практический подход для создания более значимых и реалистичных бенчмарков, которые будут улучшать возможности моделей в реальных мировых сценариях.
## Выводы
Результаты показали, что RCI является эффективным инструментом для измерения глобального и локального рассуждения в визуально-языковых моделях. Он определяет наличие проблем в текущих бенчмарках и призван помочь разработчикам создавать более адекватные, глобально-ориентированные модели. Будущие исследования будут сфокусированы на расширении RCI для других типов бенчмарков и его использовании в развитии многорежимных моделей с более высокой универсальностью.
Abstract
Multimodal Large Language Models (MLLMs) have achieved impressive results on
vision-language benchmarks, yet it remains unclear whether these benchmarks
assess genuine global reasoning or allow success via localized visual cues.
Existing evaluation methods do not explicitly measure this distinction,
hindering effective dataset curation and real-world focused model development.
We introduce Region Comprehension Index (RCI), the first model-based score to
directly quantify a dataset's reliance on global versus local visual
information. RCI systematically compares reference-model performance on image
patches versus full images, revealing if tasks require holistic image
understanding or can be solved with partial or localized visual cues.
When applying RCI to 13 widely used multimodal benchmarks, we observed that
most of them favor localized reasoning and exhibit significant spatial biases,
indicating potential risks in real-world applications. RCI equips researchers &
practitioners with an actionable tool for diagnosing & mitigating these biases,
enabling the construction of datasets and benchmarks to foster the development
of robust, enterprise-ready multimodal systems.