📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Hitesh Laxmichand Patel, Amit Agarwal, Srikant Panda, Hansa Meghwani, Karan Dua, Paul Li, Tao Sheng, Sujith Ravi, Dan Roth

## Контекст В последние годы выработка моделей языка и визуальных данных значительно улучшилась, что позволило создать Multimodal Large Language Models (MLLMs), которые могут обрабатывать и контекстуализировать информацию из разных модальностей. Однако существуют проблемы с нестабильностью и недостоверностью таких моделей в реальных условиях. Это происходит из-за их чувствительности к незначительным или даже отвлекающим контекстным факторам, в частности визуальным. Этот аспект часто остается непроверенным в существующих методах оценки моделей. Необходимо разработать метрику, которая бы позволяла измерить уровень контекстной устойчивости MLLMs и принять этим основу для развития более надежных решений. ## Метод Мы предлагаем **Patch Context Robustness Index (PCRI)** — метрику, которая оценивает уровень устойчивости MLLMs к разности в контекстной информации в зависимости от того, является ли это картинкой в целом или локальным патчем. PCRI дает интерпретируемые результаты, показывая изменение модели при изменении разрешения визуального входа. Мы применяем PCRI к 19 моделям, включая самые современные MLLMs, и проверяем их на 15 визуально-языковых бенчмарков. Эта метрика позволяет измерить точность моделей и раскрыть их уязвимость к внешним контекстным факторам. ## Результаты Наши эксперименты показали, что большинство старейших моделей остаются чувствительными к контексту и нарушаются при изменении входных данных. Тем не менее, некоторые модели, такие как InternVL2-26B и Qwen2VL-72B, демонстрируют высокую устойчивость к разности в контексту. PCRI также позволяет увидеть различия в поведении как моделей с простыми, так и сложными архитектурами. Это дает практические подсказки для разработчиков и исследователей, чтобы создавать модели, которые более устойчивы к контексту в реальных сценариях. ## Значимость PCRI может быть применена в различных областях, включая обработку естественного языка, визуального поиска и робототехнику. Она предоставляет диагностические инсайды для моделей, помогая выбирать наиболее подходящие решения для конкретного задания. Благодаря PCRI можно развивать более устойчивые модели, которые будут эффективно работать в реальных условиях, независимо от контекста. ## Выводы PCRI представляет собой новый подход к оценке контекстной устойчивости MLLMs. Он демонстрирует значительную помощь в развитии надёжных, реального мира моделей, которые могут обрабатывать различные виды контекста. Наша работа открывает новые возможности для создания более устойчивых моделей, а также для повышения эффективности и надежности визуально-языковых моделей в технических сценариях. М
Annotation:
The reliability of Multimodal Large Language Models (MLLMs) in real-world settings is often undermined by sensitivity to irrelevant or distracting visual context, an aspect not captured by existing evaluation metrics. We introduce the \textbf{Patch Context Robustness Index (PCRI)}, the first systematic and interpretable score for quantifying MLLM robustness to variations in visual context granularity, measuring performance changes between localized image patches and full-image input. Applying ...
ID: 2509.23879v1 cs.CV, cs.AI, cs.CL, cs.MM, 68T50, 68T45, I.2.7; I.2.10; I.4.8; I.4.10; I.4.0