ChartHal: A Fine-grained Framework Evaluating Hallucination of Large Vision Language Models in Chart Understanding
2509.17481v1
cs.CV, cs.AI, cs.CL
2025-09-24
Авторы:
Xingqi Wang, Yiming Cui, Xin Yao, Shijin Wang, Guoping Hu, Xiaoyu Qin
Резюме на русском
## Контекст
Огромные визуально-языковые модели (LVLMs) стали сильным инструментом для различных задач, но их применение в чарт-анализе становится все более актуальным. Чарты — графические представления данных — требуют из моделей высокого уровня гранулярности, точности и фактической аккуратности. Однако недавние исследования показали, что LVLMs часто совершают ошибки в понимании чартов, теряя фактическую точность. Этот аспект — hallucination (иллюзионное представление) — остается недостаточно изученным, особенно в контексте чартов. Наша мотивация — разработать подробный фреймворк для оценки и изучения этой проблемы.
## Метод
Мы предлагаем ChartHal — новую б BENCHMARK, которая включает в себя развитую таксономию hallucination в чарт-анализе. Методология включает:
1. **Сбор данных**: мы создали 1062 чартов с предложениями, которые покрывают различные сценарии работы модели.
2. **Категоризация размышлений**: каждый случай удовлетворяет конкретной категории эксперимента, чтобы обеспечить точную оценку модели.
3. **Подтверждение человеческим опытникам**: каждая сценарий прошел ручную верификацию, чтобы обеспечить качество и актуальность данных.
## Результаты
Мы проверили ChartHal на нескольких моделях, включая GPT-5 и o4-mini. Результаты показали, что даже эти современные модели проваливаются на ChartHal: GPT-5 показал только 34,46% точности, а o4-mini — 22,79%. Это показывает, что все модели часто совершают ошибки в чарт-анализе, особенно когда ответы зависят от недоступных или противоречивых данных. Эти результаты подкрепляют нашу мотивацию: существуют серьезные проблемы с hallucination в LVLMs.
## Значимость
Мы убедились, что ChartHal может использоваться в разных областях применения, включая развитие более высококачественных моделей, оценку точности моделей, и улучшение интеллектуальных систем для работы с чартами. Фреймворк ChartHal может помочь оптимизировать ошибки hallucination, что является критически важной задачей для обеспечения фактической точности и понимания в широких задачах визуального понимания.
## Выводы
ChartHal — первая работа, которая направлена на развитие подробного фреймворка для оценки hallucination в чарт-анализе. Мы представили новую таксономию и 1062-примерный датасет, который показывает существенные проблемы даже с лучшими моделями. Наше исследование подчеркивает необходимость более сильных методов и методологий для улучшения точности LVLMs в чарт-анализе. В будущем мы планируем расширить датасет и провести его многосторонний анализ с различными моделями, чтобы улучшить гранулярность и точность.
Abstract
Large Vision-Language Models (LVLMs) have recently demonstrated remarkable
progress, yet hallucination remains a critical barrier, particularly in chart
understanding, which requires sophisticated perceptual and cognitive abilities
as well as rigorous factual accuracy. While prior work has investigated
hallucinations and chart comprehension independently, their intersection
remains largely unexplored. To address this gap, we present ChartHal, a
benchmark that features a fine-grained taxonomy of hallucination scenarios in
chart understanding, along with a human-validated dataset of 1,062 samples. Our
evaluation shows that state-of-the-art LVLMs suffer from severe hallucinations
on ChartHal, including proprietary models such as GPT-5 and o4-mini, which
achieve only 34.46% and 22.79% accuracy, respectively. Further analysis reveals
that questions involving information absent from or contradictory to charts are
especially likely to trigger hallucinations, underscoring the urgent need for
more robust mitigation strategies. Code and data are available at
https://github.com/ymcui/ChartHal .
Ссылки и действия
Дополнительные ресурсы: