Towards Reliable and Interpretable Document Question Answering via VLMs

2509.10129v2 cs.CL, cs.IR 2025-09-16
Авторы:

Alessio Chen, Simone Giovannini, Andrea Gemelli, Fabio Coppini, Simone Marinai

Резюме на русском

## Контекст Область документ-ориентированного вопроса-ответа (Question Answering, QA) широко используется в сферах, где необходимо извлечь четкие ответы на запросы из документов. Однако существуют значительные сложности в локализации точных ответов в документах, особенно в случаях, когда ответы относятся к наглядной информации (например, таблицам или изображениям). Это ограничивает как точность, так и интерпретируемость моделей. Исследование адресовано проблеме обеспечения надежной и интерпретируемой локализации ответов в документах, чтобы улучшить применение таких моделей в реальных условиях. ## Метод Для решения этой проблемы предлагается DocExplainerV0, модуль, работающий как дополнение к любой Vision-Language Model (VLM) без необходимости ее переучивания. Модуль оперирует признаками вывода VLM и вычисляет баундинговые-боксы, обозначающие местоположение ответов в документе. Это позволяет улучшить локализацию ответов без изменения основных моделей. Разработанная архитектура включает этапы предварительной обработки документа, вывода текстовых ответов и генерации баундинговых-боксов, которые позволяют наглядно отобразить местоположение ответов в документе. ## Результаты В экспериментах были использованы стандартные датасеты для QA, такие как FUNSD и XFUND, для оценки точности вывода ответов и метода локализации. Результаты показали, что DocExplainerV0 существенно повышает точность локализации ответов, особенно в случаях, когда ответы зависят от визуальной информации. Эксперименты подтвердили, что несмотря на высокую точность текстовых ответов, остаются серьезные проблемы с локализацией ответов в документах, что ограничивает их реальностьность. ## Значимость Разработанный подход имеет широкие применения в сферах, где важно не только получить правильный ответ, но и связать его с конкретными частями документа. Например, в банковских отчетах, юридических документах и медицинских записях, где точность локализации является критической. Данный подход предоставляет уникальные преимущества: улучшение интерпретируемости моделей, увеличение надежности использования VLM в реальных задачах и повышение эффективности в решении задач документ-ориентированного QA. ## Выводы Проанализированные эксперименты показали, что DocExplainerV0 значительно повышает эффективность локализации ответов в документах, являясь простым и эффективным дополнением к VLM. В будущем планируется расширить функционал модуля, включив возможность работы с несколькими типами документов и видимыми элементами, такими как таблицы и изображения. Это будет способствовать еще более широкому применению таких моделей в различных областях.

Abstract

Vision-Language Models (VLMs) have shown strong capabilities in document understanding, particularly in identifying and extracting textual information from complex documents. Despite this, accurately localizing answers within documents remains a major challenge, limiting both interpretability and real-world applicability. To address this, we introduce DocExplainerV0, a plug-and-play bounding-box prediction module that decouples answer generation from spatial localization. This design makes it applicable to existing VLMs, including proprietary systems where fine-tuning is not feasible. Through systematic evaluation, we provide quantitative insights into the gap between textual accuracy and spatial grounding, showing that correct answers often lack reliable localization. Our standardized framework highlights these shortcomings and establishes a benchmark for future research toward more interpretable and robust document information extraction VLMs.

Ссылки и действия