Modality Bias in LVLMs: Analyzing and Mitigating Object Hallucination via Attention Lens
2508.02419v1
cs.CV, cs.CL
2025-08-09
Авторы:
Haohan Zheng, Zhenguo Zhang
Резюме на русском
**Резюме**
Наблюдается существенная проблема в работе бо LLM (Large Vision-Language Models): object hallucination — генерация неточных или бессмысленных описаний объектов в изображениях. Основной причиной этого случается модальное болтанье, когда модель неправильно обрабатывает информацию разных модальностей (визуальная и текстовая). Данная проблема мешает LVLMs корректно выполнять пользовательские запросы, так как они предпочитают одну модальность, в то время как другая недостаточно учитывается.
Предлагаемое решение заключается в том, чтобы скорректировать веса взаимодействия между модальностями, чтобы лучше выравнять результаты с пользовательскими задачами. Это делается путем настройки взаимодействия токенов текста и визуала, стимулируя модель более равномерно учитывать обе модальности. Более того, для уменьшения зависимости модели от внутреннего знания, используются стратегии контрастного декодирования.
В результате, наши эксперименты подтверждают, что предложенное решение эффективно снижает object hallucination на различных LVLMs и дает хорошие результаты в различных бенчмарках, подтверждая гибкость и эффективность метода.
Abstract
Large vision-language models (LVLMs) have demonstrated remarkable multimodal
comprehension and reasoning capabilities, but they still suffer from severe
object hallucination. Previous studies primarily attribute the flaw to
linguistic prior caused by the scale mismatch between visual encoders and large
language models (LLMs) in LVLMs. Specifically, as current LVLMs are built upon
LLMs, they tend to over-rely on textual prompts and internal knowledge of LLMs,
generating descriptions inconsistent with visual cues. However, through an
in-depth investigation of the hallucinated mechanisms, we empirically reveal a
previously overlooked phenomenon: LVLMs may ignore not only visual information
but also textual modality during hallucination, a behavior termed as modality
bias, which indicates that LVLMs struggle to simultaneously attend to both
visual and textual modalities, leading to fragmented understanding of
user-provided instructions. Based on this observation, we propose a simple yet
effective training-free method to mitigate object hallucination. Concretely, we
intervene and adjust the attention weights of textual and visual tokens,
balancing cross-modal compatibility for better alignment with user intentions.
Furthermore, we adopt a contrastive decoding strategy to reduce the LVLM's
overreliance on its parametric knowledge, synergistically enhancing our
attention manipulation. Extensive experiments confirm the widespread presence
of modality bias in LVLMs. Notably, our method effectively mitigates
hallucination across multiple open-source LVLMs and benchmarks, highlighting
its generalizability and efficacy.
Ссылки и действия
Дополнительные ресурсы: