InfoCausalQA:Can Models Perform Non-explicit Causal Reasoning Based on Infographic?
2508.06220v1
cs.CL, cs.AI
2025-08-12
Авторы:
Keummin Ka, Junhyeong Park, Jahyun Jeon, Youngjae Yu
Резюме на русском
## Контекст
В последние годы новейшие образовательные достижения в области Vision-Language Models (VLMs) продемонстрировали заметные улучшения в области визуального восприятия и рассуждения. Однако недостаточное внимание уделялось вопросам последовательного вывода и семантического вербального разумения, которые являются основными составляющими человеческого логического роста. Многие многомодальные системы сейчас способны выполнять некоторые виды рассуждений по логике, но говорят о сложностях при работе с инфографическими данными. Отсутствие решений, которые могли бы способствовать развитию таких аспектов умственных способностей, поднимает вопрос о том, как лучше модели могут интерпретировать и обрабатывать сложные визуально-текстовые данные. Это желание вдохновило создание InfoCausalQA, новый подход, который использует инфографики для выявления и оценки различных типов каузальных отношений.
## Метод
Созданная модель InfoCausalQA основывается на многомодальном подходе, который комбинирует визуальные и текстовые данные. Базовая методология состоит в том, чтобы использовать многоуровневую архитектуру для восприятия и обработки инфографических пар. Она использует техники глубокого обучения для распознавания структуры изображений и интерпретации текста, а также для выделения ключевых элементов, которые могут помочь в выполнении каузальных рассуждений. Модель предлагает два основных задания: первое — оценка квантитативных отношений на основе визуальных трендов, а второе — понимание семантических отношений, включая причинно-следственные, взаимосвязи времени и интервенционные. Для проведения экспериментов было собрано 494 пар текста с инфографиками из четырех открытых источников. Далее, GPT-4o был использован для генерации 1482 вопросов с несколькими вариантами ответов, которые подверглись редактированию человеческими экспертами для гарантии того, что ответы будут требовать глубокого понимания инфографики, а не простой выбора по словам.
## Результаты
Полученные результаты показали, что нынешние VLMs несколько ограничены в способности выполнять продолжительные рассуждения. Задача 1, связанная с квантитативным рассуждением, требует моделей построения логических цепочек на основе визуальных данных, но несколько VLMs, включая CLIP и LXMERT, показали очень низкую точность в ответах. Кроме того, задача 2, связанная с семантическими отношениями, показала еще большую сложность для моделей. Наибольшую сложность вызывали рассуждения по временным отношениям и интервенционным законам. В целом, модели VLMs оказались не способны выполня
Abstract
Recent advances in Vision-Language Models (VLMs) have demonstrated impressive
capabilities in perception and reasoning. However, the ability to perform
causal inference -- a core aspect of human cognition -- remains underexplored,
particularly in multimodal settings. In this study, we introduce InfoCausalQA,
a novel benchmark designed to evaluate causal reasoning grounded in
infographics that combine structured visual data with textual context. The
benchmark comprises two tasks: Task 1 focuses on quantitative causal reasoning
based on inferred numerical trends, while Task 2 targets semantic causal
reasoning involving five types of causal relations: cause, effect,
intervention, counterfactual, and temporal. We manually collected 494
infographic-text pairs from four public sources and used GPT-4o to generate
1,482 high-quality multiple-choice QA pairs. These questions were then
carefully revised by humans to ensure they cannot be answered based on
surface-level cues alone but instead require genuine visual grounding. Our
experimental results reveal that current VLMs exhibit limited capability in
computational reasoning and even more pronounced limitations in semantic causal
reasoning. Their significantly lower performance compared to humans indicates a
substantial gap in leveraging infographic-based information for causal
inference. Through InfoCausalQA, we highlight the need for advancing the causal
reasoning abilities of multimodal AI systems.
Ссылки и действия
Дополнительные ресурсы: