PCRI: Measuring Context Robustness in Multimodal Models for Enterprise Applications
2509.23879v1
cs.CV, cs.AI, cs.CL, cs.MM, 68T50, 68T45, I.2.7; I.2.10; I.4.8; I.4.10; I.4.0
2025-10-01
Авторы:
Hitesh Laxmichand Patel, Amit Agarwal, Srikant Panda, Hansa Meghwani, Karan Dua, Paul Li, Tao Sheng, Sujith Ravi, Dan Roth
Резюме на русском
## Контекст
В последние годы выработка моделей языка и визуальных данных значительно улучшилась, что позволило создать Multimodal Large Language Models (MLLMs), которые могут обрабатывать и контекстуализировать информацию из разных модальностей. Однако существуют проблемы с нестабильностью и недостоверностью таких моделей в реальных условиях. Это происходит из-за их чувствительности к незначительным или даже отвлекающим контекстным факторам, в частности визуальным. Этот аспект часто остается непроверенным в существующих методах оценки моделей. Необходимо разработать метрику, которая бы позволяла измерить уровень контекстной устойчивости MLLMs и принять этим основу для развития более надежных решений.
## Метод
Мы предлагаем **Patch Context Robustness Index (PCRI)** — метрику, которая оценивает уровень устойчивости MLLMs к разности в контекстной информации в зависимости от того, является ли это картинкой в целом или локальным патчем. PCRI дает интерпретируемые результаты, показывая изменение модели при изменении разрешения визуального входа. Мы применяем PCRI к 19 моделям, включая самые современные MLLMs, и проверяем их на 15 визуально-языковых бенчмарков. Эта метрика позволяет измерить точность моделей и раскрыть их уязвимость к внешним контекстным факторам.
## Результаты
Наши эксперименты показали, что большинство старейших моделей остаются чувствительными к контексту и нарушаются при изменении входных данных. Тем не менее, некоторые модели, такие как InternVL2-26B и Qwen2VL-72B, демонстрируют высокую устойчивость к разности в контексту. PCRI также позволяет увидеть различия в поведении как моделей с простыми, так и сложными архитектурами. Это дает практические подсказки для разработчиков и исследователей, чтобы создавать модели, которые более устойчивы к контексту в реальных сценариях.
## Значимость
PCRI может быть применена в различных областях, включая обработку естественного языка, визуального поиска и робототехнику. Она предоставляет диагностические инсайды для моделей, помогая выбирать наиболее подходящие решения для конкретного задания. Благодаря PCRI можно развивать более устойчивые модели, которые будут эффективно работать в реальных условиях, независимо от контекста.
## Выводы
PCRI представляет собой новый подход к оценке контекстной устойчивости MLLMs. Он демонстрирует значительную помощь в развитии надёжных, реального мира моделей, которые могут обрабатывать различные виды контекста. Наша работа открывает новые возможности для создания более устойчивых моделей, а также для повышения эффективности и надежности визуально-языковых моделей в технических сценариях. М
Abstract
The reliability of Multimodal Large Language Models (MLLMs) in real-world
settings is often undermined by sensitivity to irrelevant or distracting visual
context, an aspect not captured by existing evaluation metrics. We introduce
the \textbf{Patch Context Robustness Index (PCRI)}, the first systematic and
interpretable score for quantifying MLLM robustness to variations in visual
context granularity, measuring performance changes between localized image
patches and full-image input.
Applying PCRI to 19 state-of-the-art MLLMs across 15 vision-language
benchmarks, we find that most leading models remain brittle to background
noise, with only a few, such as InternVL2-26B and Qwen2VL-72B, demonstrating
consistent robustness across tasks. PCRI analysis also highlights how different
model architectures handle and integrate visual context, offering actionable
diagnostic insight for both researchers and practitioners.
PCRI enables rigorous comparison of context robustness, supporting principled
model selection and guiding the development of future architectures and
training strategies for robust, real-world deployment.