📊 Статистика дайджестов
Всего дайджестов: 34123 Добавлено сегодня: 101
Последнее обновление: сегодня
Авторы:
Amit Agarwal, Hitesh Laxmichand Patel, Srikant Panda, Hansa Meghwani, Jyotika Singh, Karan Dua, Paul Li, Tao Sheng, Sujith Ravi, Dan Roth
## Контекст
Multimodal знания, объединяющие визуальные и текстовые данные, стали важной областью исследований в искусственном интеллекте. Многие Multimodal Large Language Models (MLLMs) показали выдающиеся результаты на визуально-языковых бенчмарках. Однако, существует сомнение в том, насколько эти бенчмарки оценивают настоящую возможность глобального логического рассуждения или разрешают достижение успеха через локальные визуальные признаки. На данный момент, существующие методы оценки неявно измеряют это различие, что способствует субъективному выбору данных и ограничивает потенциал моделей в реальных мировых сценариях.
## Метод
Региональный Разумеющий Индекс (RCI) — первый модельный подход, который измеряет значимость глобального и локального визуального смысла в задаче. Он сравнивает производительность модели на изображениях и их отдельных частях, выявляя наличие зависимости от глобальных или локальных признаков. RCI использует референтную модель для сравнения производительности на изображениях и их частях, чтобы определить, требуют ли задачи глобального понимания или могут быть решены локальными признаками.
## Результаты
При проверке RCI на 13 широко используемых визуально-языковых бенчмарках было выявлено, что большинство из них призначивают локальные признаки, что приводит к сильной зависимости от пространственных признаков. Это может привести к нежелательным последствиям в реальных мировых сценариях. Таким образом, RCI оказывается важной инструментом для диагностики и устранения этих проблем, что позволяет создавать более балансированные бенчмарки и развивать реальности-нацеленные модели.
## Значимость
RCI может применяться в широком спектре приложений, включая диагностику проблем в текущих бенчмарках, оптимизацию точности моделей и развитие бенчмарков, которые стимулируют развитие реальности-нацеленных моделей. Он обеспечивает практический подход для создания более значимых и реалистичных бенчмарков, которые будут улучшать возможности моделей в реальных мировых сценариях.
## Выводы
Результаты показали, что RCI является эффективным инструментом для измерения глобального и локального рассуждения в визуально-языковых моделях. Он определяет наличие проблем в текущих бенчмарках и призван помочь разработчикам создавать более адекватные, глобально-ориентированные модели. Будущие исследования будут сфокусированы на расширении RCI для других типов бенчмарков и его использовании в развитии многорежимных моделей с более высокой универсальностью.
Annotation:
Multimodal Large Language Models (MLLMs) have achieved impressive results on
vision-language benchmarks, yet it remains unclear whether these benchmarks
assess genuine global reasoning or allow success via localized visual cues.
Existing evaluation methods do not explicitly measure this distinction,
hindering effective dataset curation and real-world focused model development.
We introduce Region Comprehension Index (RCI), the first model-based score to
directly quantify a dataset's reliance o...