Diving into Mitigating Hallucinations from a Vision Perspective for Large Vision-Language Models

2509.13836v1 cs.CV, cs.CL 2025-09-19

Авторы:

Weihang Wang, Xinhao Li, Ziyue Wang, Yan Pang, Jielei Zhang, Peiyi Li, Qiang Zhang, Longwen Gao

Резюме на русском

## Контекст Объединение визуальной и языковой информации в Large Vision-Language Models (LVLMs) обеспечивает мощные возможности для решения различных задач. Однако существует одна серьезная проблема, которая существенно ограничивает их применение в реальном мире — object hallucination. Это происходит, когда модель визуально описывает объекты, которые либо не присутствуют, либо не соответствуют смыслу текста. Такие ошибки снижают доверие к моделям и становятся значительным препятствием для их успешного использования в ситуациях, требующих высокой точности и достоверности. Необходимость решения этой проблемы мотивирует разработку методов, которые могут анализировать и контролировать этот эффект. В данном исследовании мы сосредоточились на визуальном компоненте LVLMs, так как он является ключевым для точного интерпретирования входной изображенческой информации. Мы предположили, что различные тренировочные параметры и архитектуры визуальных моделей влияют на их устойчивость к hallucinations. Однако существующие бенчмарки для оценки LVLMs слишком грубоваты и не могут отразить тонкости этой проблемы. Наша цель — понять эти тонкости и разработать методы, которые могут ее эффективно устранить. ## Метод Мы предложили новую метрику для тонкой оценки различных типов object hallucinations, которая позволяет лучше понять, как различные визуальные модели справляются с этим вопросом. Для этого мы разработали VHBench-10 — бенчмарк, состоящий из примерно 10 тысяч примеров с разбивкой на 10 категорий hallucinations. Это позволяет представлять не только общий эффект, но и тонкости, связанные с различными видами этой проблемы. Кроме того, мы разработали VisionWeaver — совершенно новую модель, основанную на Context-Aware Routing Network. Она использует глобальные визуальные признаки для генерации сигналов, которые динамически направляют модель, какие специализированные эксперты использовать для агрегации данных. Эта архитектура позволяет модели более эффективно адаптироваться к различным типам объектов и ситуаций. ## Результаты Мы провели подробные эксперименты сравнивая нашу модель с другими текущими визуальными моделями на VHBench-10. Эксперименты показали, что VisionWeaver не только существенно сокращает частоту object hallucinations, но и улучшает общую точность модели. Мы показали, что различные виды object hallucinations по-разному влияют на различные визуальные модели, и VisionWeaver демонстрирует высокую устойчивость к этим различиям. ## Значимость Наши результаты имеют большое значение для области LVLMs, так как они позволяют значительно сократить ошибки, связанные с hallucinations. Это делает модели более надежными для применения в реальных задачах, таки

Abstract

Object hallucination in Large Vision-Language Models (LVLMs) significantly impedes their real-world applicability. As the primary component for accurately interpreting visual information, the choice of visual encoder is pivotal. We hypothesize that the diverse training paradigms employed by different visual encoders instill them with distinct inductive biases, which leads to their diverse hallucination performances. Existing benchmarks typically focus on coarse-grained hallucination detection and fail to capture the diverse hallucinations elaborated in our hypothesis. To systematically analyze these effects, we introduce VHBench-10, a comprehensive benchmark with approximately 10,000 samples for evaluating LVLMs across ten fine-grained hallucination categories. Our evaluations confirm encoders exhibit unique hallucination characteristics. Building on these insights and the suboptimality of simple feature fusion, we propose VisionWeaver, a novel Context-Aware Routing Network. It employs global visual features to generate routing signals, dynamically aggregating visual features from multiple specialized experts. Comprehensive experiments confirm the effectiveness of VisionWeaver in significantly reducing hallucinations and improving overall model performance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Diving into Mitigating Hallucinations from a Vision Perspective for Large Vision-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация