ChartCap: Mitigating Hallucination of Dense Chart Captioning
2508.03164v1
cs.CV, cs.AI, cs.CL
2025-08-09
Авторы:
Junyoung Lim, Jaewoo Ahn, Gunhee Kim
Резюме на русском
Генерирование точных и структурированных подписей для диаграмм остается сложной задачей для визуально-языковых моделей, в основном из-за недостатка больших, высококачественных датасетов реальных диаграмм. Основная проблема в том, что существующие датасеты часто включают лишнюю информацию, которая нельзя вывести из диаграмм, и недостаточно хорошо охватывают структурные элементы и основные выводы. Чтобы решить эту проблему, мы представляем ChartCap — большой датасет из 565К реальных диаграмм, покрывающий широкий спектр типов диаграмм. Наш датасет включает в себя точные, детальные подписи, которые исключают лишнюю информацию и сосредоточены на структуре и ключевых выводах. Чтобы повысить качество, мы разработали 4-х этапную методику с использованием циклической консистентности для проверки гуманными экспертами. Мы также предложили новый метрику — Visual Consistency Score — для оценки качества подписей, сравнивая регенерируемую диаграммой с оригиналом. Наши эксперименты показали, что модели, приточенные на ChartCap, генерируют более точные и информативные подписи с меньшим количеством халлуцинаций, превосходя даже профессионально аннотированные данные.
Abstract
Generating accurate, informative, and hallucination-free captions for charts
remains challenging for vision language models, primarily due to the lack of
large-scale, high-quality datasets of real-world charts. However, existing
real-world chart datasets suffer from the inclusion of extraneous information
that cannot be inferred from the chart and failure to sufficiently capture
structural elements and key insights. Therefore, we introduce ChartCap, a
large-scale dataset of 565K real-world chart images paired with type-specific,
dense captions that exclude extraneous information and highlight both
structural elements and key insights in detail. To build ChartCap, we design a
four-stage pipeline that generates captions using only the discernible data
from the chart and employ a cycle consistency-based human verification, which
accelerates quality control without sacrificing accuracy. Additionally, we
propose a novel metric, the Visual Consistency Score, which evaluates caption
quality by measuring the similarity between the chart regenerated from a
caption and the original chart, independent of reference captions. Extensive
experiments confirms that models fine-tuned on ChartCap consistently generate
more accurate and informative captions with reduced hallucinations, surpassing
both open-source and proprietary models and even human-annotated captions.
Ссылки и действия
Дополнительные ресурсы: