ChartHal: A Fine-grained Framework Evaluating Hallucination of Large Vision Language Models in Chart Understanding

2509.17481v1 cs.CV, cs.AI, cs.CL 2025-09-24
Авторы:

Xingqi Wang, Yiming Cui, Xin Yao, Shijin Wang, Guoping Hu, Xiaoyu Qin

Резюме на русском

## Контекст Огромные визуально-языковые модели (LVLMs) стали сильным инструментом для различных задач, но их применение в чарт-анализе становится все более актуальным. Чарты — графические представления данных — требуют из моделей высокого уровня гранулярности, точности и фактической аккуратности. Однако недавние исследования показали, что LVLMs часто совершают ошибки в понимании чартов, теряя фактическую точность. Этот аспект — hallucination (иллюзионное представление) — остается недостаточно изученным, особенно в контексте чартов. Наша мотивация — разработать подробный фреймворк для оценки и изучения этой проблемы. ## Метод Мы предлагаем ChartHal — новую б BENCHMARK, которая включает в себя развитую таксономию hallucination в чарт-анализе. Методология включает: 1. **Сбор данных**: мы создали 1062 чартов с предложениями, которые покрывают различные сценарии работы модели. 2. **Категоризация размышлений**: каждый случай удовлетворяет конкретной категории эксперимента, чтобы обеспечить точную оценку модели. 3. **Подтверждение человеческим опытникам**: каждая сценарий прошел ручную верификацию, чтобы обеспечить качество и актуальность данных. ## Результаты Мы проверили ChartHal на нескольких моделях, включая GPT-5 и o4-mini. Результаты показали, что даже эти современные модели проваливаются на ChartHal: GPT-5 показал только 34,46% точности, а o4-mini — 22,79%. Это показывает, что все модели часто совершают ошибки в чарт-анализе, особенно когда ответы зависят от недоступных или противоречивых данных. Эти результаты подкрепляют нашу мотивацию: существуют серьезные проблемы с hallucination в LVLMs. ## Значимость Мы убедились, что ChartHal может использоваться в разных областях применения, включая развитие более высококачественных моделей, оценку точности моделей, и улучшение интеллектуальных систем для работы с чартами. Фреймворк ChartHal может помочь оптимизировать ошибки hallucination, что является критически важной задачей для обеспечения фактической точности и понимания в широких задачах визуального понимания. ## Выводы ChartHal — первая работа, которая направлена на развитие подробного фреймворка для оценки hallucination в чарт-анализе. Мы представили новую таксономию и 1062-примерный датасет, который показывает существенные проблемы даже с лучшими моделями. Наше исследование подчеркивает необходимость более сильных методов и методологий для улучшения точности LVLMs в чарт-анализе. В будущем мы планируем расширить датасет и провести его многосторонний анализ с различными моделями, чтобы улучшить гранулярность и точность.

Abstract

Large Vision-Language Models (LVLMs) have recently demonstrated remarkable progress, yet hallucination remains a critical barrier, particularly in chart understanding, which requires sophisticated perceptual and cognitive abilities as well as rigorous factual accuracy. While prior work has investigated hallucinations and chart comprehension independently, their intersection remains largely unexplored. To address this gap, we present ChartHal, a benchmark that features a fine-grained taxonomy of hallucination scenarios in chart understanding, along with a human-validated dataset of 1,062 samples. Our evaluation shows that state-of-the-art LVLMs suffer from severe hallucinations on ChartHal, including proprietary models such as GPT-5 and o4-mini, which achieve only 34.46% and 22.79% accuracy, respectively. Further analysis reveals that questions involving information absent from or contradictory to charts are especially likely to trigger hallucinations, underscoring the urgent need for more robust mitigation strategies. Code and data are available at https://github.com/ymcui/ChartHal .

Ссылки и действия