Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization
2508.20181v1
cs.CV, cs.AI, cs.CL, cs.MM
2025-08-30
Авторы:
Alberto Compagnoni, Davide Caffagni, Nicholas Moratelli, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara
Резюме на русском
## Контекст
Multimodal Large Language Models (MLLMs) являются мощным инструментом, объединяющим в себе возможности обработки естественного языка и компьютерного зрения. Они доказали свою эффективность в решении различных задач, но имеют значительную проблему — тенденцию к генерированию ответов, которые не имеют отражения в визуальном вводе. Это проблема, известная как "галлюцинации", значительно ослабляет доверие пользователей к MLLMs. Наличие такого явления говорит о несоответствии данных, использованных моделью во время обучения, и реальности, в которой она применяется. Этот факт требует внедрения эффективных методов, способных уменьшить частоту галлюцинаций.
## Метод
Метод, предложенный в работе, основывается на использовании CHAIR (Combined Hallucination Assessment Index for Ranking), метрики, которая позволяет оценивать степень галлюцинаций в ответах модели. Модель CHAIR сравнивает два ответа на одну задачу: один галлюцинацией пораженный, другой — нет. Оценка производится на основе различных критериев, например, точности деталей и соответствия изображения. Это позволяет сформировать предпочтение к негаллюцинационным ответам. Далее, эти предпочтения используются для тренировки модели с помощью Direct Preference Optimization (DPO), методики, которая направляет модель на максимизацию выбранного показателя. Такой подход значительно упрощает процесс, так как не требует специальных предварительных шагов, таких как синтез синтетических данных.
## Результаты
Метод был проверен на нескольких тестах, основанных на различных базах данных. Эксперименты показали, что применение CHAIR-DPO значительно уменьшает частоту галлюцинаций в ответах модели. Метрики, полученные в этих экспериментах, сравнивались с другими подходами, и результаты CHAIR-DPO показали значительное преимущество в сокращении галлюцинаций. Это доказывает эффективность методики в повышении точности и достоверности ответов в сценариях, требующих интеграции текстов и изображений.
## Значимость
Эффективность CHAIR-DPO продемонстрирована на различных задачах, включая обработку изображений и текстов для вывода понятных ответов. Метод может быть применен в различных областях, связанных с компьютерным зрением и естественным языком, таких как распознавание объектов, генерация текстов, анализ изображений. Основное преимущество CHAIR-DPO заключается в его гибкости и простоте — он может быть настроен для различных моделей без необходимости дополнительных синтетических данных. Это может привести к более достоверным и надежным решениям в технологиях, основанных на multimodal LLM.
## Выводы
В ходе исследования был пред
Abstract
Multimodal Large Language Models (MLLMs) emerge as a unified interface to
address a multitude of tasks, ranging from NLP to computer vision. Despite
showcasing state-of-the-art results in many benchmarks, a long-standing issue
is the tendency of MLLMs to hallucinate, that is to generate answers to the
user's query that are not reflected in the visual input. In this paper, we
address the problem of hallucinations as an alignment problem, seeking to steer
the MLLM so that it prefers generating content without hallucinations. In
contrast to recent approaches that require complicated pipelines to build
synthetic preference data for alignment training, often relying on proprietary
models, we capitalize on the well-known CHAIR metric, originally proposed to
gauge the degree of hallucinations in image captioning. Given a pair of
generated answers, we leverage CHAIR to distinguish winner and loser options
(i.e., non-hallucinated and hallucinated samples) and fine-tune off-the-shelf
MLLMs via Direct Preference Optimization (DPO). The resulting method, which we
refer to as CHAIR-DPO, effectively diminishes the amount of hallucinated
answers on several hallucination benchmarks, demonstrating the effectiveness of
fine-tuning the MLLM with a CHAIR-based reward. Source code and trained models
are publicly available at https://github.com/aimagelab/CHAIR-DPO.