Sparse and Dense Retrievers Learn Better Together: Joint Sparse-Dense Optimization for Text-Image Retrieval
2508.16707v1
cs.CL, cs.IR, cs.LG
2025-08-27
Авторы:
Jonghyun Song, Youngjune Lee, Gyu-Hwung Cho, Ilhyeon Song, Saehun Kim, Yohan Jo
Резюме на русском
#### Контекст
В последние годы, мультимодальные задачи, такие как text-image retrieval, получили значительное внимание в искусственном интеллекте. Одним из ключевых подходов является использование Vision-Language Pretrained (VLP) моделей, которые достигли выдающихся результатов, основываясь на плотных (dense) представлениях. Эти модели эффективны в традиционных text-image retrieval задачах, но часто требуют больших вычислительных ресурсов.
С другой стороны, Learned Sparse Retrieval (LSR), основанный на сжатых (sparse) представлениях, привлекает внимание благодаря своей прозрачности и эффективности. Он позволяет использовать быстрые терм-ориентированные поисковые запросы с помощью инвертированных индексов. Недавние исследования расширяют LSR в мультимодальные задачи, но часто они полагаются на дорогостоящие методы, такие как контрастное предварительное обучение (contrastive pretraining) или дистилляция из замороженных моделей, что ограничивает их потенциал.
Мы предлагаем кардинально новый подход, который объединяет преимущества двух подходов, обеспечивая синергетическое улучшение обеих моделей.
#### Метод
Мы предлагаем Self-Knowledge Distillation (SKD) как ключевой механизм для объединения двух подходов. Наша методология включает в себя:
1. **Интегрированную меру схожести**, которая является взвешенным суммом плотной и сжатой схожестей. Этот сингулярный сигнал используется как вектор тестовой модели (teacher).
2. **Оптимизация только последнего слоя** dense модели и sparse projection head. Это позволяет эффективно применять нашу модель к качеству запросов в существующих VLP моделях.
3. **Процесс би-дирекционного обучения**, где каждая модель (dense и sparse) учит другую с помощью SKD.
Наш подход гарантирует, что каждая модель использует преимущества другой, не требуя дорогостоящих вычислений или специальных архитектур.
#### Результаты
Мы провели эксперименты на MSCOCO и Flickr30k, используя в качестве основы VLP модели. Наши результаты показали, что:
- **Sparse retriever** не только превосходит существующие sparse baseline, но и достигает результатов, которые в некоторых случаях превышают dense retriever.
- Это достигается без торможения вычислительной эффективности sparse моделей.
- Мы доказали, что наш подход легко адаптируется к различным VLP моделям, улучшая их взаимодействие с text-image retrieval задачами.
#### Значимость
Наш подход может быть применен в различных областях, таких как видео-анализ, мультимодальный поиск и крупномасштабные корпуса данных. Он предоставляет следующие преимущества:
- **Улучшенная точность** в мультимодальных задачах благодаря синергетическому обучению.
- **Эффективность** в реализации на масштабных дан
Abstract
Vision-Language Pretrained (VLP) models have achieved impressive performance
on multimodal tasks, including text-image retrieval, based on dense
representations. Meanwhile, Learned Sparse Retrieval (LSR) has gained traction
in text-only settings due to its interpretability and efficiency with fast
term-based lookup via inverted indexes. Inspired by these advantages, recent
work has extended LSR to the multimodal domain. However, these methods often
rely on computationally expensive contrastive pre-training, or distillation
from a frozen dense model, which limits the potential for mutual enhancement.
To address these limitations, we propose a simple yet effective framework that
enables bi-directional learning between dense and sparse representations
through Self-Knowledge Distillation. This bi-directional learning is achieved
using an integrated similarity score-a weighted sum of dense and sparse
similarities-which serves as a shared teacher signal for both representations.
To ensure efficiency, we fine-tune the final layer of the dense encoder and the
sparse projection head, enabling easy adaptation of any existing VLP model.
Experiments on MSCOCO and Flickr30k demonstrate that our sparse retriever not
only outperforms existing sparse baselines, but also achieves performance
comparable to-or even surpassing-its dense counterparts, while retaining the
benefits of sparse models.
Ссылки и действия
Дополнительные ресурсы: