Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images

2509.07966v1 cs.CV, cs.CL 2025-09-11

Авторы:

Boammani Aser Lompo, Marc Haraoui

Резюме на русском

## Контекст Одним из ключевых аспектов развития современных визуально-языковых моделей (Vision-Language Models, VLMs) является возможность эффективного визуального рассуждения над структурированными данными, такими как таблицы. Тем не менее, существующие бенчмарки для оценки визуального рассуждения над таблицами имеют значительные ограничения в масштабе, разнообразии и глубине рассуждений, особенно при использовании рендеринга таблиц в виде изображений. Этот лаконичный ресурс определяет значительные проблемы для развития моделей, которые могут не только распознавать таблицы, но и выполнять глубокую логическую рассуждение о них. Ввиду этого, есть необходимость в создании более объемных и разнообразных данных, которые могут более точно оценивать визуально-логические способности моделей. ## Метод Методология, использованная в этой работе, основывается на создании модульной, автоматизированной и стоимостно-эффективной генерационной конвейерной системы. Эта система включает несколько моделей глубокого обучения (LLMs), которые работают вместе в разных ролях: генерации, валидации и использовании в качестве вдохновения. Начальные модели ставят сложные табличные структуры и темы, а другие модели развивают эти идеи, внося дополнительный контент. Этот процесс позволяет создавать высококачественные, разнообразные и логически глубокие реальные сценарии в рамках моделирования. Бенчмарк Visual-TableQA включает 2.5k LaTeX-таблиц и 6k вопросов-ответов, построенных на них, созданных при минимальных затратах (менее $100), что демонстрирует эффективность технологии. ## Результаты В результате экспериментов показано, что модели, обученные на Visual-TableQA, демонстрируют высокую гибкость и общеуниверсальность. Они показали значительные улучшения в производительности по сравнению с другими моделями, даже несмотря на синтетический характер данных. Эти модели оказались более точными в обработке табличных данных вне зависимости от того, синтетические они ли оказались или нет, что указывает на потенциал такого подхода для развития моделей среды. ## Значимость Этот подход имеет широкие применения в сферах, где требуется развитая визуально-логическая обработка данных. Он может быть применен в таких областях, как данные отраслей, финансы, медицина, и даже в развитие продуктов учебных систем. Одним из основных преимуществ является своя стоимость, быстродействие и тот факт, что он может быть применен для широкой обработки различных типов данных. В будущем, этот подход может быть развит для добавления более сложных задач и тестов, чтобы повысить допускаемую точность моделей. ##

Abstract

Visual reasoning over structured data such as tables is a critical capability for modern vision-language models (VLMs), yet current benchmarks remain limited in scale, diversity, or reasoning depth, especially when it comes to rendered table images. Addressing this gap, we introduce Visual-TableQA, a large-scale, open-domain multimodal dataset specifically designed to evaluate and enhance visual reasoning over complex tabular data. Our generation pipeline is modular, scalable, and fully autonomous, involving multiple reasoning LLMs collaborating across distinct roles: generation, validation, and inspiration. Visual-TableQA comprises 2.5k richly structured LaTeX-rendered tables and 6k reasoning-intensive QA pairs, all produced at a cost of under USD 100. To promote diversity and creativity, our pipeline performs multi-model collaborative data generation via cross-model prompting ('inspiration') and LLM-jury filtering. Stronger models seed layouts and topics that weaker models elaborate, collectively distilling diverse reasoning patterns and visual structures into the dataset. Empirical results show that models fine-tuned on Visual-TableQA generalize robustly to external benchmarks, outperforming several proprietary models despite the dataset's synthetic nature. The full pipeline and resources are publicly available at https://github.com/AI-4-Everyone/Visual-TableQA.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация