MRFD: Multi-Region Fusion Decoding with Self-Consistency for Mitigating Hallucinations in LVLMs
2508.10264v1
cs.CV, cs.AI
2025-08-15
Авторы:
Haonan Ge, Yiwei Wang, Ming-Hsuan Yang, Yujun Cai
Резюме на русском
## Контекст
Одним из основных проблем, с которыми сталкиваются бо LLM (большие языковые модели) в области обработки визуально-языковых данных, является проблема "халлуцинаций" - текстовые ответы, которые не соответствуют визуальному вводу. Это особенно заметно при работе с бо LLM, которые не имеют точной способности проверить информацию в разных регионах изображения. Такая неточность приводит к неточности и недостоверности ответов. Ранее предложенные методы, такие как Chain-of-Thought (CoT), улучшают ответы моделей, но требуют дополнительных обучений с большим количеством трафика данных. Наша работа, MRFD (Multi-Region Fusion Decoding), предлагает решение, не требующее повторного обучения модели и основано на обнаружении и объединении регионов изображения с помощью cross-attention и формирования весов регионов на основе Jensen-Shannon Divergence (JSD).
## Метод
Чтобы улучшить фактическую надежность ответов бо LVM, MRFD (Multi-Region Fusion Decoding) использует методы cross-attention для определения ключевых регионов на изображении. Для каждого региона выполняется генерация ответа, который затем проверяется с помощью Jensen-Shannon Divergence (JSD) для определения консистентности. Эти веса используются для создания регионально ориентированных подсказок, которые вводятся в процесс построения ответа. Эта стратегия позволяет использовать ранее полученные результаты для точного соответствия визуального ввода.
## Результаты
Мы проводили эксперименты с несколькими моделями бо LVM, включая LLaMA, Flamingo и BLIP-2, используя бенчмарки, такие как VQA (Visual Question Answering) и RefCOCOg. Наши результаты показывают, что MRFD способствует существенному снижению проблемы халлуцинаций и улучшению фактической надежности ответов в сравнении с другими методами, не требуя повторного обучения модели. Этот подход показал высокую эффективность в улучшении точности ответов и реалистичности взаимодействия с реальными данными.
## Значимость
Предложенный подход может быть применен в различных областях, таких как системы поиска, системы рекомендаций и системы помощи в решении задач. Он обеспечивает более точные и соответствующие фактическим данным ответы, что значительно повышает качество и надежность боевых LVM в приложениях. Благодаря тому, что MRFD требует минимального обновления модели, он предлагает эффективное решение для быстрого улучшения существующих систем.
## Выводы
MRFD (Multi-Region Fusion Decoding) продемонстрировал свою эффективность в решении проблемы халлуцинаций в бо LVM, улучшив фактическую надежность ответов. Мы планируем продолжить эксперименты с другими бо LVM и расширить применение MRFD на другие задачи, связанные с обработкой визуально-языковых данных. Наш подход может быть применен в
Abstract
Large Vision-Language Models (LVLMs) have shown strong performance across
multimodal tasks. However, they often produce hallucinations -- text that is
inconsistent with visual input, due to the limited ability to verify
information in different regions of the image. To address this, we propose
Multi-Region Fusion Decoding (MRFD), a training-free decoding method that
improves factual grounding by modeling inter-region consistency. MRFD
identifies salient regions using cross-attention, generates initial responses
for each, and computes reliability weights based on Jensen-Shannon Divergence
(JSD) among the responses. These weights guide a consistency-aware fusion of
per-region predictions, using region-aware prompts inspired by Chain-of-Thought
reasoning. Experiments across multiple LVLMs and benchmarks show that MRFD
significantly reduces hallucinations and improves response factuality without
requiring model updates.
Ссылки и действия
Дополнительные ресурсы: