IKOD: Mitigating Visual Attention Degradation in Large Vision-Language Models
2508.03469v1
cs.CV
2025-08-09
Авторы:
Jiabing Yang, Chenhang Cui, Yiyang Zhou, Yixiang Chen, Peng Xia, Ying Wei, Tao Yu, Yan Huang, Liang Wang
Резюме на русском
Между современными Large Vision-Language Models (LVLMs) существует проблема высвобождения "валидных" результатов, которые не опираются на исходные изображения — так называемые "hallucinations". Это происходит из-за убывающего внимания к визуальной информации при увеличении последовательности входных данных. Мы идентифицировали, что этот явленьй лежит в основе повышения "hallucinations" и развития проблемы. Для решения этой проблемы предлагается IKOD (Image attention-guided Key-value merging cOllaborative Decoding) — непосредственное решение, основанное на комбинированной стратегии декодирования. Метод IKOD сводит внимание к визуальным данным за счет интеграции ключевых элементов из декодирования для коротких последовательностей с высоким вниманием к изображениям и старых последовательностей. В результате испытаний на различных бенчмарках, IKOD демонстрирует эффективность в уменьшении "hallucinations" и улучшении общих возможностей LVLMs без дополнительной тренировки машин.
Abstract
Recent advancements in Large Vision-Language Models (LVLMs) have demonstrated
significant progress across multiple domains. However, these models still face
the inherent challenge of integrating vision and language for collaborative
inference, which often leads to "hallucinations", outputs that are not grounded
in the corresponding images. Many efforts have been made to address these
issues, but each comes with its own limitations, such as high computational
cost or expensive dataset annotation. Recent research shows that LVLMs exhibit
a long-term bias where hallucinations increase as the sequence length grows,
yet the underlying cause remains poorly understood. Building on extensive
research into attention mechanisms in LVLMs, we analyze the relationship
between this long-term bias and visual attention. In our research, we identify
a consistent phenomenon in current LVLMs: the model's attention to visual input
diminishes as the generated sequence grows, which we hypothesize to be a key
factor contributing to observed increasing hallucinations. Based on these
insights, we propose Image attention-guided Key-value merging cOllaborative
Decoding (IKOD), a collaborative decoding strategy generating more
image-focused sequences. This method derives logits from shorter sequences with
higher image attention through key-value merging and combines them with those
from the original decoding, effectively mitigating attention degradation and
suppressing hallucinations while not incurring too much inference cost.
Extensive experiments on both hallucination and comprehensive benchmarks
demonstrate IKOD's superior effectiveness in mitigating hallucinations and
improving comprehensive capacities for LVLMs. Importantly, IKOD requires no
additional training or external tools, making it a lightweight and efficient
framework applicable to various models.
Ссылки и действия
Дополнительные ресурсы: