Sparse and Dense Retrievers Learn Better Together: Joint Sparse-Dense Optimization for Text-Image Retrieval

2508.16707v1 cs.CL, cs.IR, cs.LG 2025-08-27

Авторы:

Jonghyun Song, Youngjune Lee, Gyu-Hwung Cho, Ilhyeon Song, Saehun Kim, Yohan Jo

Резюме на русском

#### Контекст В последние годы, мультимодальные задачи, такие как text-image retrieval, получили значительное внимание в искусственном интеллекте. Одним из ключевых подходов является использование Vision-Language Pretrained (VLP) моделей, которые достигли выдающихся результатов, основываясь на плотных (dense) представлениях. Эти модели эффективны в традиционных text-image retrieval задачах, но часто требуют больших вычислительных ресурсов. С другой стороны, Learned Sparse Retrieval (LSR), основанный на сжатых (sparse) представлениях, привлекает внимание благодаря своей прозрачности и эффективности. Он позволяет использовать быстрые терм-ориентированные поисковые запросы с помощью инвертированных индексов. Недавние исследования расширяют LSR в мультимодальные задачи, но часто они полагаются на дорогостоящие методы, такие как контрастное предварительное обучение (contrastive pretraining) или дистилляция из замороженных моделей, что ограничивает их потенциал. Мы предлагаем кардинально новый подход, который объединяет преимущества двух подходов, обеспечивая синергетическое улучшение обеих моделей. #### Метод Мы предлагаем Self-Knowledge Distillation (SKD) как ключевой механизм для объединения двух подходов. Наша методология включает в себя: 1. **Интегрированную меру схожести**, которая является взвешенным суммом плотной и сжатой схожестей. Этот сингулярный сигнал используется как вектор тестовой модели (teacher). 2. **Оптимизация только последнего слоя** dense модели и sparse projection head. Это позволяет эффективно применять нашу модель к качеству запросов в существующих VLP моделях. 3. **Процесс би-дирекционного обучения**, где каждая модель (dense и sparse) учит другую с помощью SKD. Наш подход гарантирует, что каждая модель использует преимущества другой, не требуя дорогостоящих вычислений или специальных архитектур. #### Результаты Мы провели эксперименты на MSCOCO и Flickr30k, используя в качестве основы VLP модели. Наши результаты показали, что: - **Sparse retriever** не только превосходит существующие sparse baseline, но и достигает результатов, которые в некоторых случаях превышают dense retriever. - Это достигается без торможения вычислительной эффективности sparse моделей. - Мы доказали, что наш подход легко адаптируется к различным VLP моделям, улучшая их взаимодействие с text-image retrieval задачами. #### Значимость Наш подход может быть применен в различных областях, таких как видео-анализ, мультимодальный поиск и крупномасштабные корпуса данных. Он предоставляет следующие преимущества: - **Улучшенная точность** в мультимодальных задачах благодаря синергетическому обучению. - **Эффективность** в реализации на масштабных дан

Abstract

Vision-Language Pretrained (VLP) models have achieved impressive performance on multimodal tasks, including text-image retrieval, based on dense representations. Meanwhile, Learned Sparse Retrieval (LSR) has gained traction in text-only settings due to its interpretability and efficiency with fast term-based lookup via inverted indexes. Inspired by these advantages, recent work has extended LSR to the multimodal domain. However, these methods often rely on computationally expensive contrastive pre-training, or distillation from a frozen dense model, which limits the potential for mutual enhancement. To address these limitations, we propose a simple yet effective framework that enables bi-directional learning between dense and sparse representations through Self-Knowledge Distillation. This bi-directional learning is achieved using an integrated similarity score-a weighted sum of dense and sparse similarities-which serves as a shared teacher signal for both representations. To ensure efficiency, we fine-tune the final layer of the dense encoder and the sparse projection head, enabling easy adaptation of any existing VLP model. Experiments on MSCOCO and Flickr30k demonstrate that our sparse retriever not only outperforms existing sparse baselines, but also achieves performance comparable to-or even surpassing-its dense counterparts, while retaining the benefits of sparse models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Sparse and Dense Retrievers Learn Better Together: Joint Sparse-Dense Optimization for Text-Image Retrieval

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

When Sufficient is not Enough: Utilizing the Rashomon Effect for Complete Eviden...

AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progres...

PluriHop: Exhaustive, Recall-Sensitive QA over Distractor-Rich Corpora

Are Smaller Open-Weight LLMs Closing the Gap to Proprietary Models for Biomedica...

Mental Multi-class Classification on Social Media: Benchmarking Transformer Arch...

Навигация