TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding

2509.14671v1 cs.CL, cs.AI, cs.LG 2025-09-20

Авторы:

Xiaobo Xing, Wei Yuan, Tong Chen, Quoc Viet Hung Nguyen, Xiangliang Zhang, Hongzhi Yin

Резюме на русском

## Контекст Моделирование семантической и структурной информации из табличных данных является основной сложностью в области табличного понимания. Обычно используются два подхода: Table-as-Text, который преобразует таблицу в текст для обработки большими языковыми моделями (LLMs), и Table-as-Image, который сохраняет структуру таблицы в виде изображения для обработки глубокими нейронными сетями. Несмотря на эти подходы, Table-as-Text теряет важные структурные сведения, тогда как Table-as-Image сталкивается с трудностями в моделировании тонких семантических оттенков. Недавние Table-as-Multimodality-стратегии стремятся объединить текстовый и визуальный подходы, но их работа требует дорогостоящего гибернационного онтотренирования больших табличных моделей. Это затрудняет их применение в реальном мире. Для решения этих проблем мы предлагаем TableDART, фреймворк, который эффективно интегрирует текстовые и визуальные репрезентации таблиц, используя тренированные модели одиночной модальности, уменьшая при этом затраты на ресурсы. ## Метод TableDART предлагает новую стратегию для динамического мультимодального маршрутинга в табличном понимании. Основным элементом является лайтвариант MLP-сеть с 2.59M параметрами, которая динамически выбирает оптимальный маршрут для каждой пары таблица-запрос: либо обработка только текста, либо только изображения, либо их синтез. Эта сеть эффективно устраняет ненужные повторы и конфликты, возникающие при статической обработке модальностей. Кроме того, мы предлагаем новую агентскую модель, которая анализирует выводы от текстовой и визуальной моделей, выбирая лучший из них или синтезируя новый ответ с помощью рассуждений. Эта концепция позволяет избежать дорогостоящих онтотренировок больших моделей, улучшая эффективность и точность. ## Результаты Мы проверили TableDART на семи бенчмарках, включая общие и специализированные табличные данные. Результаты показывают, что TableDART достигает нового состояния искусства среди открытых моделей, превосходя стройную базу средней по 4.02%. Это достигается благодаря эффективному использованию предварительно обученных моделей и динамическому маршрутингу, который уменьшает затраты на вычисления и улучшает точность результатов. ## Значимость TableDART может быть применен в различных областях, таких как банковские системы, биология, экономика и другие, где табличные данные являются ключевым источником информации. Он предлагает более эффективный и точный подход к табличному пониманию, уменьшая затраты на ресурсы и улучшая качество

Abstract

Modeling semantic and structural information from tabular data remains a core challenge for effective table understanding. Existing Table-as-Text approaches flatten tables for large language models (LLMs), but lose crucial structural cues, while Table-as-Image methods preserve structure yet struggle with fine-grained semantics. Recent Table-as-Multimodality strategies attempt to combine textual and visual views, but they (1) statically process both modalities for every query-table pair within a large multimodal LLMs (MLLMs), inevitably introducing redundancy and even conflicts, and (2) depend on costly fine-tuning of MLLMs. In light of this, we propose TableDART, a training-efficient framework that integrates multimodal views by reusing pretrained single-modality models. TableDART introduces a lightweight 2.59M-parameter MLP gating network that dynamically selects the optimal path (either Text-only, Image-only, or Fusion) for each table-query pair, effectively reducing redundancy and conflicts from both modalities. In addition, we propose a novel agent to mediate cross-modal knowledge integration by analyzing outputs from text- and image-based models, either selecting the best result or synthesizing a new answer through reasoning. This design avoids the prohibitive costs of full MLLM fine-tuning. Extensive experiments on seven benchmarks show that TableDART establishes new state-of-the-art performance among open-source models, surpassing the strongest baseline by an average of 4.02%. The code is available at: https://anonymous.4open.science/r/TableDART-C52B

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация