GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity

2508.19972v1 cs.CV, cs.AI, cs.CL 2025-08-29

Авторы:

Seongheon Park, Yixuan Li

Резюме на русском

## Контекст Объектная маскировка (object hallucination) в больших зрения-языковых моделях (large vision-language models, LVLMs) является значительной проблемой, которая серьезно ограничивает их применение в реальных мировых задачах. Эта проблема возникает, когда модель визуально описывает объекты, которые либо не присутствуют на изображении, либо не соответствуют его содержимому. Это может привести к непредсказуемым и неточным результатам в критически важных сценариях, таких как помощь детям или улучшение доступности. Несмотря на то, что некоторые работы предложили меры для оценки вероятности объектной маскировки, они часто основываются либо на глобальных, либо на локальных признаках, что может ограничивать точность детекции. Из этого возникает потребность в разработке более надежного и точного метода для обнаружения объектной маскировки. ## Метод GLSim — это новая фреймворк с тренировкой, ориентированный на обнаружение объектной маскировки в LVLMs. Он использует комплементарные признаки глобальной (global) и локальной (local) схожести между изображением и текстовым описанием. Глобальная схожесть измеряет совпадение в общем визуальном и текстовом представлении, в то время как локальная схожесть привлекает внимание к взаимосвязям между конкретными объектами. Эти признаки объединяются в графическую модель, которая позволяет раскрыть различия между настоящими и халлуцинированными объектами. Затем, на основе улучшенного представления, GLSim использует методы вычисления схожести, чтобы определить, является ли объект халлуцинацией. Этот метод не требует дополнительного обучения модели, что делает его универсальным и эффективным в различных сценариях. ## Результаты Для проверки эффективности GLSim проведены эксперименты с использованием различных LVLMs, включая конкурентные модели с высоким рейтингом. Данные для экспериментов были получены из различных источников, включая общедоступные базы данных с изображениями и текстовыми описаниями. GLSim достиг достижил обнаружения объектной маскировки с высокой точностью, превосходя конкурентные методы на значительную дистанцию. Эксперименты также показали, что GLSim работает эффективно в разных условиях, таких как сложность изображений, различность текстовых описаний и типы LVLMs. ## Значимость Помимо обнаружения объектной маскировки, GLSim может использоваться в различных областях, включая улучшение доступности, помощь детям и выявление неточностей в автоматическом описании изображений. Эта модель предлагает значительные преимущества по сравнению с другими методами, такими как высокая точность, универсальность и отсутстви

Abstract

Object hallucination in large vision-language models presents a significant challenge to their safe deployment in real-world applications. Recent works have proposed object-level hallucination scores to estimate the likelihood of object hallucination; however, these methods typically adopt either a global or local perspective in isolation, which may limit detection reliability. In this paper, we introduce GLSim, a novel training-free object hallucination detection framework that leverages complementary global and local embedding similarity signals between image and text modalities, enabling more accurate and reliable hallucination detection in diverse scenarios. We comprehensively benchmark existing object hallucination detection methods and demonstrate that GLSim achieves superior detection performance, outperforming competitive baselines by a significant margin.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Traini...

NAS-LoRA: Empowering Parameter-Efficient Fine-Tuning for Visual Foundation Model...

Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Stream...

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcem...

Навигация