MoLoRAG: Bootstrapping Document Understanding via Multi-modal Logic-aware Retrieval

2509.07666v1 cs.CL, cs.IR 2025-09-11
Авторы:

Xixi Wu, Yanchao Tan, Nan Hou, Ruiyang Zhang, Hong Cheng

Резюме на русском

## Контекст Document Understanding является основным компонентом искусственного интеллекта с широкими применениями, в том числе в Document Question Answering (DocQA), которая является ключевым заданием для её оценки. Традиционные методы преобразовывают документы в текстовый вид для обработки Large Language Models (LLMs), только этот процесс приводит к утрате критической многомодальной информации, такой как рисунки. Хотя Large Vision-Language Models (LVLMs) могут улучшить понимание многостраничных документов, их ограниченный размер ввода не позволяет обрабатывать большой объем документов. Ретроспективное получение генерации (RAG) решает эту проблему, выбирая связанные страницы на основе семантического подхода, но оно игнорирует логические связи между страницами и запросом, которые критичны для логического вывода. Для решения этой проблемы, предлагается MoLoRAG, рамочное решение, основанное на логике, для многомодального понимания документов в многостраничной структуре. ## Метод MoLoRAG использует page graph для представления логических связей между страницами документа. Небольшой многомодальный лингвистический модель (VLM) выполняет поиск вдоль этого графа, чтобы выбрать страницы с логическими связями, которые часто упускаются в семантическом поиске. Этот подход объединяет семантическую и логическую релевантность для более точного выбора страниц. Затем, выбранные топ-$K$ страницы используются в качестве входных данных для любых LVLMs для задания вопросов и ответов. Для повышения гибкости, модель предлагает две версии: без обучения для простого развертывания и переобученная версия для более точной проверки логической релевантности. ## Результаты Эксперименты на четырёх наборах данных DocQA показали, что MoLoRAG превышает LVLM по точности в 9.68% при непосредственной обработке запросов и повышает точность поиска на 7.44% по сравнению с базовыми методами. Этот подход позволяет повысить точность за счёт логической моделирования в документном понимании. ## Значимость Предложенный подход может быть применён в различных областях, включая документацию, образование и интеллектуальный анализ документов. Он предоставляет преимущества в точности и гибкости в сравнении с традиционными методами. Будущие исследования будут направлены на улучшение логического моделирования и расширение применений в более сложных документах. ## Выводы Разработанный MoLoRAG-подход показывает существенные улучшения в понимании документов с многостраничной структурой, сравниваясь с традиционными методами. Выявленные преимущества и применения подтверждают его потенциал в различных областях. Будущие исследования будут уделять внимание усовершенствованию логического моделирования и

Abstract

Document Understanding is a foundational AI capability with broad applications, and Document Question Answering (DocQA) is a key evaluation task. Traditional methods convert the document into text for processing by Large Language Models (LLMs), but this process strips away critical multi-modal information like figures. While Large Vision-Language Models (LVLMs) address this limitation, their constrained input size makes multi-page document comprehension infeasible. Retrieval-augmented generation (RAG) methods mitigate this by selecting relevant pages, but they rely solely on semantic relevance, ignoring logical connections between pages and the query, which is essential for reasoning. To this end, we propose MoLoRAG, a logic-aware retrieval framework for multi-modal, multi-page document understanding. By constructing a page graph that captures contextual relationships between pages, a lightweight VLM performs graph traversal to retrieve relevant pages, including those with logical connections often overlooked. This approach combines semantic and logical relevance to deliver more accurate retrieval. After retrieval, the top-$K$ pages are fed into arbitrary LVLMs for question answering. To enhance flexibility, MoLoRAG offers two variants: a training-free solution for easy deployment and a fine-tuned version to improve logical relevance checking. Experiments on four DocQA datasets demonstrate average improvements of 9.68% in accuracy over LVLM direct inference and 7.44% in retrieval precision over baselines. Codes and datasets are released at https://github.com/WxxShirley/MoLoRAG.

Ссылки и действия