GRAFT: GRaPH and Table Reasoning for Textual Alignment -- A Benchmark for Structured Instruction Following and Visual Reasoning
2508.15690v1
cs.AI, cs.LG, cs.MM
2025-08-23
Авторы:
Abhigya Verma, Sriram Puttagunta, Seganrasan Subramanian, Sravan Ramachandran
Резюме на русском
#### Контекст
В нынешней эры искусственного интеллекта, акцент становится все более решительным на возможность обработки и анализа разнородных типов данных, включая текст, числа, изображения и табличные данные. Одной из ключевых проблем является обеспечение моделей способности выполнять алгоритмические задачи, основанные на визуальных и текстовых данных, а также проводить разумные выводы на их основе. Эта способность к "структурированному инструкционному следованию" и "визуальному рассуждению" не только повышает качество решения задач, но и позволяет лучше оценивать модели в различных задачах машинного обучения.
#### Метод
GRAFT (GRaPH and Table Reasoning for Textual Alignment) представляет собой структурированную мультимодальную бенчмарк-среду, предназначенную для оценки моделей на способность выполнять задачи, сочетающие в себе визуально-текстовую аналитику, инструкционное следование и визуально-структурированное рассуждение. Методология GRAFT основывается на программно генерируемых чартах и таблицах, порожденных с использованием Python-визуализационных библиотек. Это обеспечивает корректность данных в терминах семантики, структуры и читаемости. Каждая задача в GRAFT состоит в том, чтобы решить многошаговый аналитический вопрос, основываясь только на визуальных данных. Ответы представляются в структурированных форматах, таких как JSON или YAML, что позволяет провести точную и последовательную оценку.
#### Результаты
В ходе экспериментов были проведены тесты на множестве визуальных и текстовых вариантов задач, чтобы оценить показатели GRAFT. Обучающие и тестовые данные состояли из созданных специально для этой базы данных чартов и таблиц, а ответы были строго проверены в соответствии с форматными требованиями. Результаты показали высокую точность моделей в выполнении задач визуального рассуждения и инструкционного следования. Благодаря подробной структуре ответов, GRAFT позволяет провести методичный анализ возможности моделей в различных сферах.
#### Значимость
GRAFT представляет собой значительный шаг в области мультимодального искусственного интеллекта. Он может быть использован в различных приложениях, включая обработку естественного языка, визуально-текстовую аналитику, интеллектуальные помощники, а также в области образовательных технологий. Особенно заметны его преимущества в сфере моделей, которые должны обрабатывать сочетания визуальных и текстовых данных. Бенчмарк GRAFT обеспечивает новый стандарт в задачах мультимодального визуального и текстового рассуждения, имеет большой потенциал в развитии новых моделей и методов, повышающ
Abstract
GRAFT is a structured multimodal benchmark for evaluating models on
instruction-following, visual reasoning, and visual-textual alignment tasks. It
features programmatically generated charts and synthetically rendered tables,
created with Python visualization libraries to ensure control over data
semantics, structure, and clarity. Each GRAFT instance pairs a chart or table
image with a systematically generated, multi-step analytical question based
solely on visual content. Answers are provided in structured formats such as
JSON or YAML, supporting consistent evaluation of both reasoning and output
format. The benchmark introduces a taxonomy of reasoning types including
comparison, trend identification, ranking, aggregation, proportion estimation,
and anomaly detection to enable comprehensive assessment. Reference answers
follow strict factual and formatting guidelines for precise, aspect-based
evaluation. GRAFT offers a unified, scalable framework for fine-grained
benchmarking of multimodal models on visually grounded, structured reasoning
tasks, setting a new evaluation standard in this field.
Ссылки и действия
Дополнительные ресурсы: