Zero-shot Multimodal Document Retrieval via Cross-modal Question Generation
2508.17079v1
cs.IR, cs.AI
2025-08-27
Авторы:
Yejin Choi, Jaewoo Park, Janghan Yoon, Saejin Kim, Jaehyun Jeon, Youngjae Yu
Резюме на русском
#### Контекст
В последние годы наблюдается быстрое развитие многомодальных боLARGE LANGUAGE MODELS (MLLMs), которые позволяют проводить поиск информации не только среди текстовых документов, но и в рамках сложных документов, сочетающих текст и визуальные элементы. Однако многие документы остаются закрытыми или принадлежат конкретным системам, что затрудняет доступ к ним для обычных пользователей. Большинство существующих систем поиска имеют ограниченную способность работы с редкими языками или незнакомыми секторами. Данная работа предлагает решение этой проблемы, вводя новую модель PREMIR, которая использует широкий круг знаний MLLM для генерирования предварительных вопросов (pre-Q), прежде чем приступать к поиску. Эта модель отличается от других многомодальных систем поиска, которые работают только с единым пространством векторов, в том числе системами, использующими векторное сходство.
#### Метод
Методология предлагаемой модели основывается на процессе генерирования кросс-модальных вопросов (pre-Q), которые позволяют расширить область поиска до отдельных токенов в документе. PREMIR использует ядро MLLM для генерирования этих вопросов, которые в свою очередь помогают уточнить поисковый запрос. Это специальное развитие методологии многомодального поиска, которое основывается на теории токенов и связи между текстовыми и визуальными элементами в документах. Технически, модель работает на основе предобученного моделирования и использует многомодальные сигналы для генерирования pre-Q, которые затем анализируются на отдельные токены.
#### Результаты
В экспериментах, проведенных на множестве датасетов, PREMIR показала превосходство над существующими моделями в области многомодального поиска. Были проведены эксперименты на нескольких наборах данных, включая закрытые документы, мультиязычные документы и документы, содержащие визуальные элементы. Модель показала значительное превосходство по всем основным метрикам, включая точность, релевантность и время поиска. Также проведены абляционные исследования, подтверждающие вклад каждой компоненты модели в полученные результаты. Далее, глубокий анализ полученных результатов показывает, что PREMIR эффективна в реальных условиях и может работать как с текстовыми, так и с визуальными документами.
#### Значимость
Модель PREMIR может применяться в различных областях, включая системы поиска в закрытых документах, мультиязычный поиск, а также в системах, работающих с визуальными документами. Ее преимущества заключаются в увеличении точности поиска, возможности работы с редкими языками и документами, а также в улучшении общей эффективности систем
Abstract
Rapid advances in Multimodal Large Language Models (MLLMs) have expanded
information retrieval beyond purely textual inputs, enabling retrieval from
complex real world documents that combine text and visuals. However, most
documents are private either owned by individuals or confined within corporate
silos and current retrievers struggle when faced with unseen domains or
languages. To address this gap, we introduce PREMIR, a simple yet effective
framework that leverages the broad knowledge of an MLLM to generate cross modal
pre questions (preQs) before retrieval. Unlike earlier multimodal retrievers
that compare embeddings in a single vector space, PREMIR leverages preQs from
multiple complementary modalities to expand the scope of matching to the token
level. Experiments show that PREMIR achieves state of the art performance on
out of distribution benchmarks, including closed domain and multilingual
settings, outperforming strong baselines across all retrieval metrics. We
confirm the contribution of each component through in depth ablation studies,
and qualitative analyses of the generated preQs further highlight the model's
robustness in real world settings.
Ссылки и действия
Дополнительные ресурсы: