Is this chart lying to me? Automating the detection of misleading visualizations
2508.21675v1
cs.CL, cs.CV, cs.GR
2025-09-02
Авторы:
Jonathan Tonglet, Jan Zimny, Tinne Tuytelaars, Iryna Gurevych
Резюме на русском
#### Контекст
В настоящее время информационная пандемия в науке, политике и общественной сфере способствует появлению многочисленных мифов и устаревшей информации. Одним из основных источников данной проблемы является скамья мишур, которая активно используются в социальных сетях и веб-ресурсах. Известно, что такие графики искажают данные и приводят читателей к неверным выводам. Несмотря на то, что обнаружение таких изображений может быть полезно для борьбы с фальсификацией информации, существуют существенные проблемы, в том числе отсутствие многогранных и открытых баз данных для обучения AI.
#### Метод
Авторы предлагают Misviz, бенчмарк, состоящий из 2 604 реальных графиков с пометками по 12 типам ошибок. Для подготовки данных и обучения моделей также предлагается Misviz-synth — синтетическая коллекция 81 814 графиков созданных с помощью Matplotlib на основе настоящих таблиц данных. Методология включает в себя использование моделей MLLM, правил-баз и методов тюннинга для оценки и анализа графических подходов.
#### Результаты
Исследование проводилось на двух датасетах Misviz и Misviz-synth. Модели были оценены на возможности выявления 12 типов мишур, включая искажения масштаба, неверное использование шкал, выбросы и другие. Тестирование проводилось на state-of-the-art MLLMs, таких как Flan-T5 и LLaMA, а также на правилах, определяющих нарушения графических правил. Результаты показали, что даже наиболее современные модели часто не выявляют мишуры или ошибаются в определении типа.
#### Значимость
Предложенный подход имеет перспективы в области борьбы с фальсификацией данных в графической форме. Он может применяться для фильтрации социальных медиа-постов, анализа веб-страниц и обучения пользователей критического мышления. Одним из ключевых преимуществ является возможность автоматического обнаружения и классификации мишур, что может способствовать уменьшению распространения устаревшей информации.
#### Выводы
Изучение авторов показало, что автоматическое выявление мишур остается высоко сложным заданием. Однако предложенные датасеты и вычислительные модели являются значительным шагом в этом направлении. Будущие исследования будут сконцентрированы на усовершенствовании методики, обобщении моделей и расширении датасетов для более широкого применения.
Abstract
Misleading visualizations are a potent driver of misinformation on social
media and the web. By violating chart design principles, they distort data and
lead readers to draw inaccurate conclusions. Prior work has shown that both
humans and multimodal large language models (MLLMs) are frequently deceived by
such visualizations. Automatically detecting misleading visualizations and
identifying the specific design rules they violate could help protect readers
and reduce the spread of misinformation. However, the training and evaluation
of AI models has been limited by the absence of large, diverse, and openly
available datasets. In this work, we introduce Misviz, a benchmark of 2,604
real-world visualizations annotated with 12 types of misleaders. To support
model training, we also release Misviz-synth, a synthetic dataset of 81,814
visualizations generated using Matplotlib and based on real-world data tables.
We perform a comprehensive evaluation on both datasets using state-of-the-art
MLLMs, rule-based systems, and fine-tuned classifiers. Our results reveal that
the task remains highly challenging. We release Misviz, Misviz-synth, and the
accompanying code.
Ссылки и действия
Дополнительные ресурсы: