GRAFT: GRaPH and Table Reasoning for Textual Alignment -- A Benchmark for Structured Instruction Following and Visual Reasoning

2508.15690v1 cs.AI, cs.LG, cs.MM 2025-08-23
Авторы:

Abhigya Verma, Sriram Puttagunta, Seganrasan Subramanian, Sravan Ramachandran

Резюме на русском

#### Контекст В нынешней эры искусственного интеллекта, акцент становится все более решительным на возможность обработки и анализа разнородных типов данных, включая текст, числа, изображения и табличные данные. Одной из ключевых проблем является обеспечение моделей способности выполнять алгоритмические задачи, основанные на визуальных и текстовых данных, а также проводить разумные выводы на их основе. Эта способность к "структурированному инструкционному следованию" и "визуальному рассуждению" не только повышает качество решения задач, но и позволяет лучше оценивать модели в различных задачах машинного обучения. #### Метод GRAFT (GRaPH and Table Reasoning for Textual Alignment) представляет собой структурированную мультимодальную бенчмарк-среду, предназначенную для оценки моделей на способность выполнять задачи, сочетающие в себе визуально-текстовую аналитику, инструкционное следование и визуально-структурированное рассуждение. Методология GRAFT основывается на программно генерируемых чартах и таблицах, порожденных с использованием Python-визуализационных библиотек. Это обеспечивает корректность данных в терминах семантики, структуры и читаемости. Каждая задача в GRAFT состоит в том, чтобы решить многошаговый аналитический вопрос, основываясь только на визуальных данных. Ответы представляются в структурированных форматах, таких как JSON или YAML, что позволяет провести точную и последовательную оценку. #### Результаты В ходе экспериментов были проведены тесты на множестве визуальных и текстовых вариантов задач, чтобы оценить показатели GRAFT. Обучающие и тестовые данные состояли из созданных специально для этой базы данных чартов и таблиц, а ответы были строго проверены в соответствии с форматными требованиями. Результаты показали высокую точность моделей в выполнении задач визуального рассуждения и инструкционного следования. Благодаря подробной структуре ответов, GRAFT позволяет провести методичный анализ возможности моделей в различных сферах. #### Значимость GRAFT представляет собой значительный шаг в области мультимодального искусственного интеллекта. Он может быть использован в различных приложениях, включая обработку естественного языка, визуально-текстовую аналитику, интеллектуальные помощники, а также в области образовательных технологий. Особенно заметны его преимущества в сфере моделей, которые должны обрабатывать сочетания визуальных и текстовых данных. Бенчмарк GRAFT обеспечивает новый стандарт в задачах мультимодального визуального и текстового рассуждения, имеет большой потенциал в развитии новых моделей и методов, повышающ

Abstract

GRAFT is a structured multimodal benchmark for evaluating models on instruction-following, visual reasoning, and visual-textual alignment tasks. It features programmatically generated charts and synthetically rendered tables, created with Python visualization libraries to ensure control over data semantics, structure, and clarity. Each GRAFT instance pairs a chart or table image with a systematically generated, multi-step analytical question based solely on visual content. Answers are provided in structured formats such as JSON or YAML, supporting consistent evaluation of both reasoning and output format. The benchmark introduces a taxonomy of reasoning types including comparison, trend identification, ranking, aggregation, proportion estimation, and anomaly detection to enable comprehensive assessment. Reference answers follow strict factual and formatting guidelines for precise, aspect-based evaluation. GRAFT offers a unified, scalable framework for fine-grained benchmarking of multimodal models on visually grounded, structured reasoning tasks, setting a new evaluation standard in this field.

Ссылки и действия