📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Hierarchical Vision-Language Reasoning for Multimodal Multiple-Choice Question Answering

2025-08-26

Авторы:

Ao Zhou, Zebo Gu, Tenghao Sun, Jiawen Chen, Mingsheng Tu, Zifeng Cheng, Yafeng Yin, Zhiwei Jiang, Qing Gu

## Контекст Multimodal Large Language Models (MLLMs) стали одним из ключевых инструментов для решения задач визуального понимания и вопросно-ответных задач. Однако существуют значительные проблемы, в особенности при обработке развернутых PDF-документов с сложным сложностью и множественными визуальными и текстовыми слоями. Одним из главных ограничений является сильный языковой биас в процессе обучения, который приводит к меньшей эффективности при работе с языками, отличными от английского. Для решения этих проблем требуется фреймворк, который мог бы обеспечить глубокое понимание документов с разным сложностью и языковыми ограничениями. ## Метод Предлагаемый фреймворк основывается на идее визуально-языкового логического рассуждения, которое учитывает как визуальные, так и текстовые свойства документа. Основной метод заключается в декомпозиции задачи на подзадачи, при этом каждая подзадача обрабатывается с использованием предварительно обученных моделей. Это позволяет улучшить точность и скорость работы. Кроме того, в фреймворк внедрена стратегия колквен-оптимизированного поиска, которая позволяет эффективно искать информацию в PDF-документах. Метод также включает в себя стратегию верификации с помощью подзадач, чтобы улучшить точность ответов. ## Результаты Проведенные эксперименты прошли на большом корпусе PDF-документов с различной сложностью и языками. Модель показала значительное улучшение в сравнении с существующими алгоритмами, особенно в случае сложных документов. На тестовых данных модель превысила существующие методы, достигнув более высокой точности и проходя меньший процент ошибок. Эти результаты подтверждают эффективность встроенных методов обработки текста и визуальных данных. ## Значимость Предлагаемый подход может быть применен для решения широкого спектра задач, включая визуально-языковые задачи, вопросно-ответные системы и анализ документов. Основное преимущество заключается в улучшенной точности и более широком покрытии языков, что делает его подходом универсальным. Это может иметь значительное влияние в области промышленности, занятий, образования и других сферах, где требуется быстрая и точная обработка документов. ## Выводы Предложенный фреймворк демонстрирует значительный прогресс в области логического рассуждения для визуально-языковых задач. Он показал эффективность в обработке сложных документов и более широком языковом покрытии. В будущих работах будет продолжаться работа над улучшением модели, в том числе применением более развитых методов верификации и поиска для задач визуального понимания.

Annotation:

Multimodal Large Language Models (MLLMs) have demonstrated remarkable multimodal understanding capabilities in Visual Question Answering (VQA) tasks by integrating visual and textual features. However, under the challenging ten-choice question evaluation paradigm, existing methods still exhibit significant limitations when processing PDF documents with complex layouts and lengthy content. Notably, current mainstream models suffer from a strong bias toward English training data, resulting in subo...

ID: 2508.16148v1 cs.IR, cs.CL, cs.MM

arXiv PDF