MoLoRAG: Bootstrapping Document Understanding via Multi-modal Logic-aware Retrieval
2509.07666v1
cs.CL, cs.IR
2025-09-11
Авторы:
Xixi Wu, Yanchao Tan, Nan Hou, Ruiyang Zhang, Hong Cheng
Резюме на русском
## Контекст
Document Understanding является основным компонентом искусственного интеллекта с широкими применениями, в том числе в Document Question Answering (DocQA), которая является ключевым заданием для её оценки. Традиционные методы преобразовывают документы в текстовый вид для обработки Large Language Models (LLMs), только этот процесс приводит к утрате критической многомодальной информации, такой как рисунки. Хотя Large Vision-Language Models (LVLMs) могут улучшить понимание многостраничных документов, их ограниченный размер ввода не позволяет обрабатывать большой объем документов. Ретроспективное получение генерации (RAG) решает эту проблему, выбирая связанные страницы на основе семантического подхода, но оно игнорирует логические связи между страницами и запросом, которые критичны для логического вывода. Для решения этой проблемы, предлагается MoLoRAG, рамочное решение, основанное на логике, для многомодального понимания документов в многостраничной структуре.
## Метод
MoLoRAG использует page graph для представления логических связей между страницами документа. Небольшой многомодальный лингвистический модель (VLM) выполняет поиск вдоль этого графа, чтобы выбрать страницы с логическими связями, которые часто упускаются в семантическом поиске. Этот подход объединяет семантическую и логическую релевантность для более точного выбора страниц. Затем, выбранные топ-$K$ страницы используются в качестве входных данных для любых LVLMs для задания вопросов и ответов. Для повышения гибкости, модель предлагает две версии: без обучения для простого развертывания и переобученная версия для более точной проверки логической релевантности.
## Результаты
Эксперименты на четырёх наборах данных DocQA показали, что MoLoRAG превышает LVLM по точности в 9.68% при непосредственной обработке запросов и повышает точность поиска на 7.44% по сравнению с базовыми методами. Этот подход позволяет повысить точность за счёт логической моделирования в документном понимании.
## Значимость
Предложенный подход может быть применён в различных областях, включая документацию, образование и интеллектуальный анализ документов. Он предоставляет преимущества в точности и гибкости в сравнении с традиционными методами. Будущие исследования будут направлены на улучшение логического моделирования и расширение применений в более сложных документах.
## Выводы
Разработанный MoLoRAG-подход показывает существенные улучшения в понимании документов с многостраничной структурой, сравниваясь с традиционными методами. Выявленные преимущества и применения подтверждают его потенциал в различных областях. Будущие исследования будут уделять внимание усовершенствованию логического моделирования и
Abstract
Document Understanding is a foundational AI capability with broad
applications, and Document Question Answering (DocQA) is a key evaluation task.
Traditional methods convert the document into text for processing by Large
Language Models (LLMs), but this process strips away critical multi-modal
information like figures. While Large Vision-Language Models (LVLMs) address
this limitation, their constrained input size makes multi-page document
comprehension infeasible. Retrieval-augmented generation (RAG) methods mitigate
this by selecting relevant pages, but they rely solely on semantic relevance,
ignoring logical connections between pages and the query, which is essential
for reasoning.
To this end, we propose MoLoRAG, a logic-aware retrieval framework for
multi-modal, multi-page document understanding. By constructing a page graph
that captures contextual relationships between pages, a lightweight VLM
performs graph traversal to retrieve relevant pages, including those with
logical connections often overlooked. This approach combines semantic and
logical relevance to deliver more accurate retrieval. After retrieval, the
top-$K$ pages are fed into arbitrary LVLMs for question answering. To enhance
flexibility, MoLoRAG offers two variants: a training-free solution for easy
deployment and a fine-tuned version to improve logical relevance checking.
Experiments on four DocQA datasets demonstrate average improvements of 9.68% in
accuracy over LVLM direct inference and 7.44% in retrieval precision over
baselines. Codes and datasets are released at
https://github.com/WxxShirley/MoLoRAG.
Ссылки и действия
Дополнительные ресурсы: