TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding
2509.14671v1
cs.CL, cs.AI, cs.LG
2025-09-20
Авторы:
Xiaobo Xing, Wei Yuan, Tong Chen, Quoc Viet Hung Nguyen, Xiangliang Zhang, Hongzhi Yin
Резюме на русском
## Контекст
Моделирование семантической и структурной информации из табличных данных является основной сложностью в области табличного понимания. Обычно используются два подхода: Table-as-Text, который преобразует таблицу в текст для обработки большими языковыми моделями (LLMs), и Table-as-Image, который сохраняет структуру таблицы в виде изображения для обработки глубокими нейронными сетями. Несмотря на эти подходы, Table-as-Text теряет важные структурные сведения, тогда как Table-as-Image сталкивается с трудностями в моделировании тонких семантических оттенков.
Недавние Table-as-Multimodality-стратегии стремятся объединить текстовый и визуальный подходы, но их работа требует дорогостоящего гибернационного онтотренирования больших табличных моделей. Это затрудняет их применение в реальном мире. Для решения этих проблем мы предлагаем TableDART, фреймворк, который эффективно интегрирует текстовые и визуальные репрезентации таблиц, используя тренированные модели одиночной модальности, уменьшая при этом затраты на ресурсы.
## Метод
TableDART предлагает новую стратегию для динамического мультимодального маршрутинга в табличном понимании. Основным элементом является лайтвариант MLP-сеть с 2.59M параметрами, которая динамически выбирает оптимальный маршрут для каждой пары таблица-запрос: либо обработка только текста, либо только изображения, либо их синтез. Эта сеть эффективно устраняет ненужные повторы и конфликты, возникающие при статической обработке модальностей.
Кроме того, мы предлагаем новую агентскую модель, которая анализирует выводы от текстовой и визуальной моделей, выбирая лучший из них или синтезируя новый ответ с помощью рассуждений. Эта концепция позволяет избежать дорогостоящих онтотренировок больших моделей, улучшая эффективность и точность.
## Результаты
Мы проверили TableDART на семи бенчмарках, включая общие и специализированные табличные данные. Результаты показывают, что TableDART достигает нового состояния искусства среди открытых моделей, превосходя стройную базу средней по 4.02%. Это достигается благодаря эффективному использованию предварительно обученных моделей и динамическому маршрутингу, который уменьшает затраты на вычисления и улучшает точность результатов.
## Значимость
TableDART может быть применен в различных областях, таких как банковские системы, биология, экономика и другие, где табличные данные являются ключевым источником информации. Он предлагает более эффективный и точный подход к табличному пониманию, уменьшая затраты на ресурсы и улучшая качество
Abstract
Modeling semantic and structural information from tabular data remains a core
challenge for effective table understanding. Existing Table-as-Text approaches
flatten tables for large language models (LLMs), but lose crucial structural
cues, while Table-as-Image methods preserve structure yet struggle with
fine-grained semantics. Recent Table-as-Multimodality strategies attempt to
combine textual and visual views, but they (1) statically process both
modalities for every query-table pair within a large multimodal LLMs (MLLMs),
inevitably introducing redundancy and even conflicts, and (2) depend on costly
fine-tuning of MLLMs. In light of this, we propose TableDART, a
training-efficient framework that integrates multimodal views by reusing
pretrained single-modality models. TableDART introduces a lightweight
2.59M-parameter MLP gating network that dynamically selects the optimal path
(either Text-only, Image-only, or Fusion) for each table-query pair,
effectively reducing redundancy and conflicts from both modalities. In
addition, we propose a novel agent to mediate cross-modal knowledge integration
by analyzing outputs from text- and image-based models, either selecting the
best result or synthesizing a new answer through reasoning. This design avoids
the prohibitive costs of full MLLM fine-tuning. Extensive experiments on seven
benchmarks show that TableDART establishes new state-of-the-art performance
among open-source models, surpassing the strongest baseline by an average of
4.02%. The code is available at:
https://anonymous.4open.science/r/TableDART-C52B
Ссылки и действия
Дополнительные ресурсы: