Diving into Mitigating Hallucinations from a Vision Perspective for Large Vision-Language Models
2509.13836v1
cs.CV, cs.CL
2025-09-19
Авторы:
Weihang Wang, Xinhao Li, Ziyue Wang, Yan Pang, Jielei Zhang, Peiyi Li, Qiang Zhang, Longwen Gao
Резюме на русском
## Контекст
Объединение визуальной и языковой информации в Large Vision-Language Models (LVLMs) обеспечивает мощные возможности для решения различных задач. Однако существует одна серьезная проблема, которая существенно ограничивает их применение в реальном мире — object hallucination. Это происходит, когда модель визуально описывает объекты, которые либо не присутствуют, либо не соответствуют смыслу текста. Такие ошибки снижают доверие к моделям и становятся значительным препятствием для их успешного использования в ситуациях, требующих высокой точности и достоверности.
Необходимость решения этой проблемы мотивирует разработку методов, которые могут анализировать и контролировать этот эффект. В данном исследовании мы сосредоточились на визуальном компоненте LVLMs, так как он является ключевым для точного интерпретирования входной изображенческой информации. Мы предположили, что различные тренировочные параметры и архитектуры визуальных моделей влияют на их устойчивость к hallucinations. Однако существующие бенчмарки для оценки LVLMs слишком грубоваты и не могут отразить тонкости этой проблемы. Наша цель — понять эти тонкости и разработать методы, которые могут ее эффективно устранить.
## Метод
Мы предложили новую метрику для тонкой оценки различных типов object hallucinations, которая позволяет лучше понять, как различные визуальные модели справляются с этим вопросом. Для этого мы разработали VHBench-10 — бенчмарк, состоящий из примерно 10 тысяч примеров с разбивкой на 10 категорий hallucinations. Это позволяет представлять не только общий эффект, но и тонкости, связанные с различными видами этой проблемы.
Кроме того, мы разработали VisionWeaver — совершенно новую модель, основанную на Context-Aware Routing Network. Она использует глобальные визуальные признаки для генерации сигналов, которые динамически направляют модель, какие специализированные эксперты использовать для агрегации данных. Эта архитектура позволяет модели более эффективно адаптироваться к различным типам объектов и ситуаций.
## Результаты
Мы провели подробные эксперименты сравнивая нашу модель с другими текущими визуальными моделями на VHBench-10. Эксперименты показали, что VisionWeaver не только существенно сокращает частоту object hallucinations, но и улучшает общую точность модели. Мы показали, что различные виды object hallucinations по-разному влияют на различные визуальные модели, и VisionWeaver демонстрирует высокую устойчивость к этим различиям.
## Значимость
Наши результаты имеют большое значение для области LVLMs, так как они позволяют значительно сократить ошибки, связанные с hallucinations. Это делает модели более надежными для применения в реальных задачах, таки
Abstract
Object hallucination in Large Vision-Language Models (LVLMs) significantly
impedes their real-world applicability. As the primary component for accurately
interpreting visual information, the choice of visual encoder is pivotal. We
hypothesize that the diverse training paradigms employed by different visual
encoders instill them with distinct inductive biases, which leads to their
diverse hallucination performances. Existing benchmarks typically focus on
coarse-grained hallucination detection and fail to capture the diverse
hallucinations elaborated in our hypothesis. To systematically analyze these
effects, we introduce VHBench-10, a comprehensive benchmark with approximately
10,000 samples for evaluating LVLMs across ten fine-grained hallucination
categories. Our evaluations confirm encoders exhibit unique hallucination
characteristics. Building on these insights and the suboptimality of simple
feature fusion, we propose VisionWeaver, a novel Context-Aware Routing Network.
It employs global visual features to generate routing signals, dynamically
aggregating visual features from multiple specialized experts. Comprehensive
experiments confirm the effectiveness of VisionWeaver in significantly reducing
hallucinations and improving overall model performance.
Ссылки и действия
Дополнительные ресурсы: