TABLET: A Large-Scale Dataset for Robust Visual Table Understanding

2509.21205v1 cs.CV, cs.CL 2025-09-27

Авторы:

Iñigo Alonso, Imanol Miranda, Eneko Agirre, Mirella Lapata

Резюме на русском

#### Контекст Табличная информация широко используется в различных областях, включая финансы, научные исследования и бизнес-анализ. Однако автоматическое понимание таблиц, особенно в предметных областях, остается вызовом из-за их сложности, разнообразия и источников. Текущие методы обучения моделей для табличного понимания часто ограничены синтетическими данными, которые некорректно представляют реальных таблиц, или же имеют ограниченный объем и тип задач. Недостаточность реалистичных данных и гибкости в обучении приводит к моделям с недостаточной общностью и надежностью при работе с реальной табличной информацией. #### Метод TABLET — это искусственный, большой набор данных для визуального понимания таблиц, состоящий из 4 миллионов примеров, разбитых на 20 задач, основанных на 2 миллионах уникальных таблиц. Этот набор данных сочетает в себе изображения таблиц и их исходный код HTML, позволяя моделям обучаться в контексте реальных таблиц. Для каждого примера включены метаданные и информация о происхождении, чтобы обеспечить прозрачность и удобство использования. Эта архитектура позволяет моделям обучаться на различных задачах, включая распознавание, классификацию и форматирование таблиц. #### Результаты Исследования показали, что набор данных TABLET позволяет значительно улучшить результаты моделей на табличных задачах, в том числе, увеличивая точность и устойчивость к реальной табличной информации. Он был использован для тренировки существующих моделей, таких как Qwen2.5-VL-7B, и демонстрировал значительный прирост в производительности на обученных и необученных задачах. Данные TABLET также позволяют проводить расширенные эксперименты с различными видом моделей, обеспечивая гибкость и системность в исследованиях. #### Значимость TABLET широко применим в области визуального и табличного понимания, включая приложения в финансовой отчетности, научных исследованиях, бизнес-анализе и даже в образовательных системах. Его преимущество в том, что он предлагает реальные таблицы вместе с их визуальным представлением, что делает его более универсальным и полезным для развития моделей. Благодаря такому подходу модели становятся более надежными и могут применяться в различных реальных ситуациях, где важно понимать табличные данные. #### Выводы TABLET представляет собой новый этап в развитии визуального табличного понимания. Он устанавливает фундамент для более эффективного и гибкого обучения моделей в этой области. Будущие исследования будут сконцентрированы на расширении набора данных, улучшении моделей и применении TABLET в различных сферах, чтобы достичь надежных и реалистичных ре

Abstract

While table understanding increasingly relies on pixel-only settings where tables are processed as visual representations, current benchmarks predominantly use synthetic renderings that lack the complexity and visual diversity of real-world tables. Additionally, existing visual table understanding (VTU) datasets offer fixed examples with single visualizations and pre-defined instructions, providing no access to underlying serialized data for reformulation. We introduce TABLET, a large-scale VTU dataset with 4 million examples across 20 tasks, grounded in 2 million unique tables where 88% preserve original visualizations. Each example includes paired image-HTML representations, comprehensive metadata, and provenance information linking back to the source datasets. Fine-tuning vision-language models like Qwen2.5-VL-7B on TABLET improves performance on seen and unseen VTU tasks while increasing robustness on real-world table visualizations. By preserving original visualizations and maintaining example traceability in a unified large-scale collection, TABLET establishes a foundation for robust training and extensible evaluation of future VTU models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

TABLET: A Large-Scale Dataset for Robust Visual Table Understanding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация