Recurrence Meets Transformers for Universal Multimodal Retrieval

2509.08897v1 cs.CV, cs.AI, cs.CL, cs.MM 2025-09-13
Авторы:

Davide Caffagni, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

Резюме на русском

#### Контекст Современные мультимодальные задачи восстановления (multimodal retrieval) широко применяются в области глубокого обучения, включая текстовую и изображения связующие модели типа LLMs. Эти задачи включают поиск документов, сочетающих текст и изображения, что сильно усложняет выполнение поисковых запросов. На данный момент, большинство методов опираются на задачи-специфичное оптимизацию визуально-языковых моделей (vision-language models), ограничиваясь единой моделью для работы с единственной моделью. Это приводит к неэффективности в обработке более сложных задач, требующих обработки нескольких моделей. Данная работа предлагает новую модель ReT-2, которая объединяет в себе несколько моделей для работы с мультимодальными запросами и документами. #### Метод Методология ReT-2 основывается на использовании рекуррентной архитектуры Transformer с LSTM-подобными механизмами. Эта модель включает в себя несколько слоев, которые динамически интегрируют информацию из разных моделей и моделей-рекейверов (retrievers). Модель ReT-2 позволяет обрабатывать входные данные в формате изображения и текста, а также выполнять поиск по мультимодальным документам, где входные данные сочетаются в разных форматах. Для эффективного обработки нескольких входных моделей, ReT-2 использует многоуровневые представления, что позволяет более тонко анализировать объекты и текст. #### Результаты Результаты экспериментов были получены на двух основных мультимодальных наборах данных: M2KR и M-BEIR. Модель ReT-2 показала свою способность получать точные результаты в разных конфигурациях поисковых запросов. Она достигла лучших результатов по сравнению с предыдущими моделями в задачах мультимодального поиска. Была проведена сравнительная оценка времени исполнения и использования памяти, где видно было, что ReT-2 работает быстрее и эффективнее, чем предыдущие модели. Также было произведено исследование интеграции модели ReT-2 в задачи вспомогательной генерации знаний (retrieval-augmented generation), где также был доказан повышенный результат в задачах типа Encyclopedic-VQA и InfoSeek. #### Значимость Модель ReT-2 может быть применена в различных областях, включая поисковые системы, где необходима обработка мультимодальных запросов, в область обучения машин по мультимодальным данным, а также в создании новых систем для визуального поиска в интернете. Особым преимуществом является улучшенная скорость и эффективность, которая обеспечивает быстрый поиск в больших мультимодальных наборах данных. Также, модель может повысить точность решения задач, связанных с визуальным поиском и связыванием изображений с текстом. Данный по

Abstract

With the rapid advancement of multimodal retrieval and its application in LLMs and multimodal LLMs, increasingly complex retrieval tasks have emerged. Existing methods predominantly rely on task-specific fine-tuning of vision-language models and are limited to single-modality queries or documents. In this paper, we propose ReT-2, a unified retrieval model that supports multimodal queries, composed of both images and text, and searches across multimodal document collections where text and images coexist. ReT-2 leverages multi-layer representations and a recurrent Transformer architecture with LSTM-inspired gating mechanisms to dynamically integrate information across layers and modalities, capturing fine-grained visual and textual details. We evaluate ReT-2 on the challenging M2KR and M-BEIR benchmarks across different retrieval configurations. Results demonstrate that ReT-2 consistently achieves state-of-the-art performance across diverse settings, while offering faster inference and reduced memory usage compared to prior approaches. When integrated into retrieval-augmented generation pipelines, ReT-2 also improves downstream performance on Encyclopedic-VQA and InfoSeek datasets. Our source code and trained models are publicly available at: https://github.com/aimagelab/ReT-2

Ссылки и действия

Связанные статьи

Seeing Culture: A Benchmark for Visual Reasoning and Grounding

## Контекст В настоящее время многомодальные языково-визуальные модели (VLMs) достигли значительных успехов в решении за...

2025-09-24

Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on Materials C...

## Контекст Исследования в области материаловедения становятся все более важной частью самого материаловедческого процес...

2025-09-13

Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimiz...

## Контекст Multimodal Large Language Models (MLLMs) являются мощным инструментом, объединяющим в себе возможности обраб...

2025-08-30