Hierarchical Vision-Language Reasoning for Multimodal Multiple-Choice Question Answering

2508.16148v1 cs.IR, cs.CL, cs.MM 2025-08-26
Авторы:

Ao Zhou, Zebo Gu, Tenghao Sun, Jiawen Chen, Mingsheng Tu, Zifeng Cheng, Yafeng Yin, Zhiwei Jiang, Qing Gu

Резюме на русском

## Контекст Multimodal Large Language Models (MLLMs) стали одним из ключевых инструментов для решения задач визуального понимания и вопросно-ответных задач. Однако существуют значительные проблемы, в особенности при обработке развернутых PDF-документов с сложным сложностью и множественными визуальными и текстовыми слоями. Одним из главных ограничений является сильный языковой биас в процессе обучения, который приводит к меньшей эффективности при работе с языками, отличными от английского. Для решения этих проблем требуется фреймворк, который мог бы обеспечить глубокое понимание документов с разным сложностью и языковыми ограничениями. ## Метод Предлагаемый фреймворк основывается на идее визуально-языкового логического рассуждения, которое учитывает как визуальные, так и текстовые свойства документа. Основной метод заключается в декомпозиции задачи на подзадачи, при этом каждая подзадача обрабатывается с использованием предварительно обученных моделей. Это позволяет улучшить точность и скорость работы. Кроме того, в фреймворк внедрена стратегия колквен-оптимизированного поиска, которая позволяет эффективно искать информацию в PDF-документах. Метод также включает в себя стратегию верификации с помощью подзадач, чтобы улучшить точность ответов. ## Результаты Проведенные эксперименты прошли на большом корпусе PDF-документов с различной сложностью и языками. Модель показала значительное улучшение в сравнении с существующими алгоритмами, особенно в случае сложных документов. На тестовых данных модель превысила существующие методы, достигнув более высокой точности и проходя меньший процент ошибок. Эти результаты подтверждают эффективность встроенных методов обработки текста и визуальных данных. ## Значимость Предлагаемый подход может быть применен для решения широкого спектра задач, включая визуально-языковые задачи, вопросно-ответные системы и анализ документов. Основное преимущество заключается в улучшенной точности и более широком покрытии языков, что делает его подходом универсальным. Это может иметь значительное влияние в области промышленности, занятий, образования и других сферах, где требуется быстрая и точная обработка документов. ## Выводы Предложенный фреймворк демонстрирует значительный прогресс в области логического рассуждения для визуально-языковых задач. Он показал эффективность в обработке сложных документов и более широком языковом покрытии. В будущих работах будет продолжаться работа над улучшением модели, в том числе применением более развитых методов верификации и поиска для задач визуального понимания.

Abstract

Multimodal Large Language Models (MLLMs) have demonstrated remarkable multimodal understanding capabilities in Visual Question Answering (VQA) tasks by integrating visual and textual features. However, under the challenging ten-choice question evaluation paradigm, existing methods still exhibit significant limitations when processing PDF documents with complex layouts and lengthy content. Notably, current mainstream models suffer from a strong bias toward English training data, resulting in suboptimal performance for Japanese and other language scenarios. To address these challenges, this paper proposes a novel Japanese PDF document understanding framework that combines multimodal hierarchical reasoning mechanisms with Colqwen-optimized retrieval methods, while innovatively introducing a semantic verification strategy through sub-question decomposition. Experimental results demonstrate that our framework not only significantly enhances the model's deep semantic parsing capability for complex documents, but also exhibits superior robustness in practical application scenarios.

Ссылки и действия