EncQA: Benchmarking Vision-Language Models on Visual Encodings for Charts
2508.04650v1
cs.CV, I.2.0
2025-08-09
Авторы:
Kushin Mukherjee, Donghao Ren, Dominik Moritz, Yannick Assogba
Резюме на русском
Ключевые слова: **визуальная разметка, визуально-языковые модели, анализ данных, визуальные модели, EncQA бенчмарк**
**Резюме:**
В статье представлен **EncQA**, новый бенчмарк для оценки визуально-языковых моделей (VLMs), спроектированный на основе литературы по визуальной разметке. Он охватывает шесть каналов визуальных представлений (положение, длина, площадь, количественный цвет, номинальный цвет, форма) и восемь задач (нахождение экстремумов, получение значения, выявление аномалий, фильтрация, вычисление действительного и относительного преобразований, корреляция). Исследование проведено на 9 современных VLMs, включая модели с различными размерами. Оказалось, что модели показывают различия в производительности в зависимости от визуальных представлений и задач. Также не было обнаружено улучшения производительности при увеличении размера моделей для многих пар "задача-канал визуального представления". Эти результаты показывают, что для улучшения понимания данных в виде картинок требуются конкретные стратегии, а не просто увеличение моделей и данных.
Abstract
Multimodal vision-language models (VLMs) continue to achieve ever-improving
scores on chart understanding benchmarks. Yet, we find that this progress does
not fully capture the breadth of visual reasoning capabilities essential for
interpreting charts. We introduce EncQA, a novel benchmark informed by the
visualization literature, designed to provide systematic coverage of visual
encodings and analytic tasks that are crucial for chart understanding. EncQA
provides 2,076 synthetic question-answer pairs, enabling balanced coverage of
six visual encoding channels (position, length, area, color quantitative, color
nominal, and shape) and eight tasks (find extrema, retrieve value, find
anomaly, filter values, compute derived value exact, compute derived value
relative, correlate values, and correlate values relative). Our evaluation of 9
state-of-the-art VLMs reveals that performance varies significantly across
encodings within the same task, as well as across tasks. Contrary to
expectations, we observe that performance does not improve with model size for
many task-encoding pairs. Our results suggest that advancing chart
understanding requires targeted strategies addressing specific visual reasoning
gaps, rather than solely scaling up model or dataset size.
Ссылки и действия
Дополнительные ресурсы: