Analyzing and Mitigating Object Hallucination: A Training Bias Perspective
2508.04567v1
cs.CV, cs.CL
2025-08-09
Авторы:
Yifan Li, Kun Zhou, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
Резюме на русском
**Резюме**
Говорящие визуально-языковые модели (LVLMs), обученные на огромных объемах данных, достигли высоких результатов в обработке визуальной и текстовой информации. Однако они страдают от проблемы халлуцинации объектов: создают текст, не соответствующий визуальной информации. Авторы изучили эту проблему через новый бенчмарк POPEv2, основанный на counterfactual images, и обнаружили, что LVLMs склонны к скрытой систематической ошибке — они плохо обрабатывают объекты, встречавшиеся во время обучения. Это связано с тренировочным биасом, который особенно заметен в головной LM-части модели.
Чтобы устранить этот биаз, авторы предложили метод Obliviate, основанный на unlearning. Этот метод эффективно идентифицирует несоответствия между тренировочными данными и выходами модели, апгрейдит LM-часть модели, используя только процентов 2 обучающих данных. Эксперименты показали, что Obliviate эффективно уменьшает халлуцинации в различных задачах, увеличивая точность и устойчивость. Метод также продемонстрировал хорошую общинность и гибкость, работая с моделями разного размера и дополнительными типами халлуцинации. Результаты и код будут доступны для общего использования.
Abstract
As scaling up training data has significantly improved the general multimodal
capabilities of Large Vision-Language Models (LVLMs), they still suffer from
the hallucination issue, generating text that is inconsistent with the visual
input. This phenomenon motivates us to systematically investigate the role of
training data in hallucination. We introduce a new benchmark, POPEv2, which
consists of counterfactual images collected from the training data of LVLMs
with certain objects masked. Through comprehensive evaluation on POPEv2, we
find that current LVLMs suffer from training bias: they fail to fully leverage
their training data and hallucinate more frequently on images seen during
training. Specifically, they perform poorly on counterfactual images, often
incorrectly answering ``Yes'' to questions about masked objects. To understand
this issue, we conduct probing experiments on the models' internal components,
revealing that this training bias is primarily located in the language modeling
(LM) head. Based on these findings, we propose Obliviate, an efficient and
lightweight unlearning method designed to mitigate object hallucination via
training bias unlearning. Obliviate identifies the discrepancy between
ground-truth labels and model outputs on the training data as a proxy for bias
and adopts a parameter- and data-efficient fine-tuning strategy that only
updates the LM head. Extensive experiments demonstrate the effectiveness of our
approach. While only reusing the training data and updating approximately 2\%
of the parameters, Obliviate significantly reduces hallucination across both
discriminative and generative tasks. Furthermore, it demonstrates strong
scalability with respect to both model size (2B to 72B) and training data
volume, and exhibits promising generalization to hallucination types beyond
object-level hallucination. Our code and data will be publicly released.
Ссылки и действия
Дополнительные ресурсы: