📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Hitesh Laxmichand Patel, Amit Agarwal, Srikant Panda, Hansa Meghwani, Karan Dua, Paul Li, Tao Sheng, Sujith Ravi, Dan Roth
## Контекст
В последние годы выработка моделей языка и визуальных данных значительно улучшилась, что позволило создать Multimodal Large Language Models (MLLMs), которые могут обрабатывать и контекстуализировать информацию из разных модальностей. Однако существуют проблемы с нестабильностью и недостоверностью таких моделей в реальных условиях. Это происходит из-за их чувствительности к незначительным или даже отвлекающим контекстным факторам, в частности визуальным. Этот аспект часто остается непроверенным в существующих методах оценки моделей. Необходимо разработать метрику, которая бы позволяла измерить уровень контекстной устойчивости MLLMs и принять этим основу для развития более надежных решений.
## Метод
Мы предлагаем **Patch Context Robustness Index (PCRI)** — метрику, которая оценивает уровень устойчивости MLLMs к разности в контекстной информации в зависимости от того, является ли это картинкой в целом или локальным патчем. PCRI дает интерпретируемые результаты, показывая изменение модели при изменении разрешения визуального входа. Мы применяем PCRI к 19 моделям, включая самые современные MLLMs, и проверяем их на 15 визуально-языковых бенчмарков. Эта метрика позволяет измерить точность моделей и раскрыть их уязвимость к внешним контекстным факторам.
## Результаты
Наши эксперименты показали, что большинство старейших моделей остаются чувствительными к контексту и нарушаются при изменении входных данных. Тем не менее, некоторые модели, такие как InternVL2-26B и Qwen2VL-72B, демонстрируют высокую устойчивость к разности в контексту. PCRI также позволяет увидеть различия в поведении как моделей с простыми, так и сложными архитектурами. Это дает практические подсказки для разработчиков и исследователей, чтобы создавать модели, которые более устойчивы к контексту в реальных сценариях.
## Значимость
PCRI может быть применена в различных областях, включая обработку естественного языка, визуального поиска и робототехнику. Она предоставляет диагностические инсайды для моделей, помогая выбирать наиболее подходящие решения для конкретного задания. Благодаря PCRI можно развивать более устойчивые модели, которые будут эффективно работать в реальных условиях, независимо от контекста.
## Выводы
PCRI представляет собой новый подход к оценке контекстной устойчивости MLLMs. Он демонстрирует значительную помощь в развитии надёжных, реального мира моделей, которые могут обрабатывать различные виды контекста. Наша работа открывает новые возможности для создания более устойчивых моделей, а также для повышения эффективности и надежности визуально-языковых моделей в технических сценариях. М
Annotation:
The reliability of Multimodal Large Language Models (MLLMs) in real-world
settings is often undermined by sensitivity to irrelevant or distracting visual
context, an aspect not captured by existing evaluation metrics. We introduce
the \textbf{Patch Context Robustness Index (PCRI)}, the first systematic and
interpretable score for quantifying MLLM robustness to variations in visual
context granularity, measuring performance changes between localized image
patches and full-image input.
Applying ...