Zero-shot Multimodal Document Retrieval via Cross-modal Question Generation

2508.17079v1 cs.IR, cs.AI 2025-08-27
Авторы:

Yejin Choi, Jaewoo Park, Janghan Yoon, Saejin Kim, Jaehyun Jeon, Youngjae Yu

Резюме на русском

#### Контекст В последние годы наблюдается быстрое развитие многомодальных боLARGE LANGUAGE MODELS (MLLMs), которые позволяют проводить поиск информации не только среди текстовых документов, но и в рамках сложных документов, сочетающих текст и визуальные элементы. Однако многие документы остаются закрытыми или принадлежат конкретным системам, что затрудняет доступ к ним для обычных пользователей. Большинство существующих систем поиска имеют ограниченную способность работы с редкими языками или незнакомыми секторами. Данная работа предлагает решение этой проблемы, вводя новую модель PREMIR, которая использует широкий круг знаний MLLM для генерирования предварительных вопросов (pre-Q), прежде чем приступать к поиску. Эта модель отличается от других многомодальных систем поиска, которые работают только с единым пространством векторов, в том числе системами, использующими векторное сходство. #### Метод Методология предлагаемой модели основывается на процессе генерирования кросс-модальных вопросов (pre-Q), которые позволяют расширить область поиска до отдельных токенов в документе. PREMIR использует ядро MLLM для генерирования этих вопросов, которые в свою очередь помогают уточнить поисковый запрос. Это специальное развитие методологии многомодального поиска, которое основывается на теории токенов и связи между текстовыми и визуальными элементами в документах. Технически, модель работает на основе предобученного моделирования и использует многомодальные сигналы для генерирования pre-Q, которые затем анализируются на отдельные токены. #### Результаты В экспериментах, проведенных на множестве датасетов, PREMIR показала превосходство над существующими моделями в области многомодального поиска. Были проведены эксперименты на нескольких наборах данных, включая закрытые документы, мультиязычные документы и документы, содержащие визуальные элементы. Модель показала значительное превосходство по всем основным метрикам, включая точность, релевантность и время поиска. Также проведены абляционные исследования, подтверждающие вклад каждой компоненты модели в полученные результаты. Далее, глубокий анализ полученных результатов показывает, что PREMIR эффективна в реальных условиях и может работать как с текстовыми, так и с визуальными документами. #### Значимость Модель PREMIR может применяться в различных областях, включая системы поиска в закрытых документах, мультиязычный поиск, а также в системах, работающих с визуальными документами. Ее преимущества заключаются в увеличении точности поиска, возможности работы с редкими языками и документами, а также в улучшении общей эффективности систем

Abstract

Rapid advances in Multimodal Large Language Models (MLLMs) have expanded information retrieval beyond purely textual inputs, enabling retrieval from complex real world documents that combine text and visuals. However, most documents are private either owned by individuals or confined within corporate silos and current retrievers struggle when faced with unseen domains or languages. To address this gap, we introduce PREMIR, a simple yet effective framework that leverages the broad knowledge of an MLLM to generate cross modal pre questions (preQs) before retrieval. Unlike earlier multimodal retrievers that compare embeddings in a single vector space, PREMIR leverages preQs from multiple complementary modalities to expand the scope of matching to the token level. Experiments show that PREMIR achieves state of the art performance on out of distribution benchmarks, including closed domain and multilingual settings, outperforming strong baselines across all retrieval metrics. We confirm the contribution of each component through in depth ablation studies, and qualitative analyses of the generated preQs further highlight the model's robustness in real world settings.

Ссылки и действия