InfoCausalQA:Can Models Perform Non-explicit Causal Reasoning Based on Infographic?

2508.06220v1 cs.CL, cs.AI 2025-08-12
Авторы:

Keummin Ka, Junhyeong Park, Jahyun Jeon, Youngjae Yu

Резюме на русском

## Контекст В последние годы новейшие образовательные достижения в области Vision-Language Models (VLMs) продемонстрировали заметные улучшения в области визуального восприятия и рассуждения. Однако недостаточное внимание уделялось вопросам последовательного вывода и семантического вербального разумения, которые являются основными составляющими человеческого логического роста. Многие многомодальные системы сейчас способны выполнять некоторые виды рассуждений по логике, но говорят о сложностях при работе с инфографическими данными. Отсутствие решений, которые могли бы способствовать развитию таких аспектов умственных способностей, поднимает вопрос о том, как лучше модели могут интерпретировать и обрабатывать сложные визуально-текстовые данные. Это желание вдохновило создание InfoCausalQA, новый подход, который использует инфографики для выявления и оценки различных типов каузальных отношений. ## Метод Созданная модель InfoCausalQA основывается на многомодальном подходе, который комбинирует визуальные и текстовые данные. Базовая методология состоит в том, чтобы использовать многоуровневую архитектуру для восприятия и обработки инфографических пар. Она использует техники глубокого обучения для распознавания структуры изображений и интерпретации текста, а также для выделения ключевых элементов, которые могут помочь в выполнении каузальных рассуждений. Модель предлагает два основных задания: первое — оценка квантитативных отношений на основе визуальных трендов, а второе — понимание семантических отношений, включая причинно-следственные, взаимосвязи времени и интервенционные. Для проведения экспериментов было собрано 494 пар текста с инфографиками из четырех открытых источников. Далее, GPT-4o был использован для генерации 1482 вопросов с несколькими вариантами ответов, которые подверглись редактированию человеческими экспертами для гарантии того, что ответы будут требовать глубокого понимания инфографики, а не простой выбора по словам. ## Результаты Полученные результаты показали, что нынешние VLMs несколько ограничены в способности выполнять продолжительные рассуждения. Задача 1, связанная с квантитативным рассуждением, требует моделей построения логических цепочек на основе визуальных данных, но несколько VLMs, включая CLIP и LXMERT, показали очень низкую точность в ответах. Кроме того, задача 2, связанная с семантическими отношениями, показала еще большую сложность для моделей. Наибольшую сложность вызывали рассуждения по временным отношениям и интервенционным законам. В целом, модели VLMs оказались не способны выполня

Abstract

Recent advances in Vision-Language Models (VLMs) have demonstrated impressive capabilities in perception and reasoning. However, the ability to perform causal inference -- a core aspect of human cognition -- remains underexplored, particularly in multimodal settings. In this study, we introduce InfoCausalQA, a novel benchmark designed to evaluate causal reasoning grounded in infographics that combine structured visual data with textual context. The benchmark comprises two tasks: Task 1 focuses on quantitative causal reasoning based on inferred numerical trends, while Task 2 targets semantic causal reasoning involving five types of causal relations: cause, effect, intervention, counterfactual, and temporal. We manually collected 494 infographic-text pairs from four public sources and used GPT-4o to generate 1,482 high-quality multiple-choice QA pairs. These questions were then carefully revised by humans to ensure they cannot be answered based on surface-level cues alone but instead require genuine visual grounding. Our experimental results reveal that current VLMs exhibit limited capability in computational reasoning and even more pronounced limitations in semantic causal reasoning. Their significantly lower performance compared to humans indicates a substantial gap in leveraging infographic-based information for causal inference. Through InfoCausalQA, we highlight the need for advancing the causal reasoning abilities of multimodal AI systems.

Ссылки и действия