MRFD: Multi-Region Fusion Decoding with Self-Consistency for Mitigating Hallucinations in LVLMs

2508.10264v1 cs.CV, cs.AI 2025-08-15

Авторы:

Haonan Ge, Yiwei Wang, Ming-Hsuan Yang, Yujun Cai

Резюме на русском

## Контекст Одним из основных проблем, с которыми сталкиваются бо LLM (большие языковые модели) в области обработки визуально-языковых данных, является проблема "халлуцинаций" - текстовые ответы, которые не соответствуют визуальному вводу. Это особенно заметно при работе с бо LLM, которые не имеют точной способности проверить информацию в разных регионах изображения. Такая неточность приводит к неточности и недостоверности ответов. Ранее предложенные методы, такие как Chain-of-Thought (CoT), улучшают ответы моделей, но требуют дополнительных обучений с большим количеством трафика данных. Наша работа, MRFD (Multi-Region Fusion Decoding), предлагает решение, не требующее повторного обучения модели и основано на обнаружении и объединении регионов изображения с помощью cross-attention и формирования весов регионов на основе Jensen-Shannon Divergence (JSD). ## Метод Чтобы улучшить фактическую надежность ответов бо LVM, MRFD (Multi-Region Fusion Decoding) использует методы cross-attention для определения ключевых регионов на изображении. Для каждого региона выполняется генерация ответа, который затем проверяется с помощью Jensen-Shannon Divergence (JSD) для определения консистентности. Эти веса используются для создания регионально ориентированных подсказок, которые вводятся в процесс построения ответа. Эта стратегия позволяет использовать ранее полученные результаты для точного соответствия визуального ввода. ## Результаты Мы проводили эксперименты с несколькими моделями бо LVM, включая LLaMA, Flamingo и BLIP-2, используя бенчмарки, такие как VQA (Visual Question Answering) и RefCOCOg. Наши результаты показывают, что MRFD способствует существенному снижению проблемы халлуцинаций и улучшению фактической надежности ответов в сравнении с другими методами, не требуя повторного обучения модели. Этот подход показал высокую эффективность в улучшении точности ответов и реалистичности взаимодействия с реальными данными. ## Значимость Предложенный подход может быть применен в различных областях, таких как системы поиска, системы рекомендаций и системы помощи в решении задач. Он обеспечивает более точные и соответствующие фактическим данным ответы, что значительно повышает качество и надежность боевых LVM в приложениях. Благодаря тому, что MRFD требует минимального обновления модели, он предлагает эффективное решение для быстрого улучшения существующих систем. ## Выводы MRFD (Multi-Region Fusion Decoding) продемонстрировал свою эффективность в решении проблемы халлуцинаций в бо LVM, улучшив фактическую надежность ответов. Мы планируем продолжить эксперименты с другими бо LVM и расширить применение MRFD на другие задачи, связанные с обработкой визуально-языковых данных. Наш подход может быть применен в

Abstract

Large Vision-Language Models (LVLMs) have shown strong performance across multimodal tasks. However, they often produce hallucinations -- text that is inconsistent with visual input, due to the limited ability to verify information in different regions of the image. To address this, we propose Multi-Region Fusion Decoding (MRFD), a training-free decoding method that improves factual grounding by modeling inter-region consistency. MRFD identifies salient regions using cross-attention, generates initial responses for each, and computes reliability weights based on Jensen-Shannon Divergence (JSD) among the responses. These weights guide a consistency-aware fusion of per-region predictions, using region-aware prompts inspired by Chain-of-Thought reasoning. Experiments across multiple LVLMs and benchmarks show that MRFD significantly reduces hallucinations and improves response factuality without requiring model updates.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MRFD: Multi-Region Fusion Decoding with Self-Consistency for Mitigating Hallucinations in LVLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация