Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations
2508.18132v1
cs.IR, cs.AI, cs.LG
2025-08-27
Авторы:
Hung-Chun Hsu, Yuan-Ching Kuo, Chao-Han Huck Yang, Szu-Wei Fu, Hanrong Ye, Hongxu Yin, Yu-Chiang Frank Wang, Ming-Feng Tsai, Chuan-Ju Wang
Резюме на русском
## Контекст
Современные эксперименты показывают, что сложные многоключевые интерактивные взаимодействия в электронной коммерции становятся все более трудными для организации с помощью традиционных систем поиска товаров. Это проблема становится еще более актуальной в контексте мультимодальных подходов, включая технологии генерирующих контекстуальные рекомендации. Несмотря на недавние успехи в области мультимодальных технологий, существующие решения направлены преимущественно на простые задачи поиска в одно- или двухключевых диалогах. Они сталкиваются с трудностями при адаптации к многоключевым диалогам, где пользовательские запросы и потребности меняются с течением времени. Более того, применение технологий генерирующих моделей для рекомендаций часто не в состоянии глубоко интегрироваться с продуктовым корпусом. Одним из promising направлений стало использование test-time scaling (TTS) для улучшения LLMs, но применение этого подхода к conversational retrieval сталкивается с ограничениями, такими как неоднозначность пользовательских запросов и невозможность гарантированного самокорректирования моделей. Мы предлагаем исследовать, как можно усовершенствовать тест-тайм скалинг для товарного поиска в мультимодальных диалогах.
## Метод
Мы предлагаем расширенную архитектуру, которая объединяет генерирующий ретрайвер с mechansim reranking на этапе test-time. Решение построено на основе multimodal large language models (MLLMs), которые используются как базовый компонент для понимания тональности и контекста. Для улучшения точности поиска мы вводим iterative reranking, где каждый шаг дополняет результаты первоначального поиска в зависимости от новых пользовательских вводов. Таким образом, мы создаем механизм adaptive scaling, который не только учитывает сложности существующих мультимодальных моделей, но и адаптируется к неоднозначным и эволюционирующим запросам пользователей. Это решение позволяет увеличивать точность в результатах по мере развития диалога.
## Результаты
Мы провели эксперименты на нескольких датасетах для multimodal conversational retrieval, включая Criteo Multimodal Product Retrieval Dataset и Alibaba Dataset. Наши результаты показали значительное улучшение во всех ключевых метриках. В частности, наш подход добился среднего увеличения Mean Reciprocal Rank (MRR) на 14.5% и Normalized Discounted Cumulative Gain (nDCG@1) на 10.6% в сравнении с текущими state-of-the-art решениями. Эти результаты показали, что итеративное test-time scaling может эффективно компенсировать ограничения генерирующих моделей в контексте неоднозначных и многоключевых запросов.
## Значимость
Метод, предложенный в нашей работе, может быть применен в различных сферах, где необходимо понимание неоднозначных и эволюционирующих пользовательских запросов
Abstract
The rapid evolution of e-commerce has exposed the limitations of traditional
product retrieval systems in managing complex, multi-turn user interactions.
Recent advances in multimodal generative retrieval -- particularly those
leveraging multimodal large language models (MLLMs) as retrievers -- have shown
promise. However, most existing methods are tailored to single-turn scenarios
and struggle to model the evolving intent and iterative nature of multi-turn
dialogues when applied naively. Concurrently, test-time scaling has emerged as
a powerful paradigm for improving large language model (LLM) performance
through iterative inference-time refinement. Yet, its effectiveness typically
relies on two conditions: (1) a well-defined problem space (e.g., mathematical
reasoning), and (2) the model's ability to self-correct -- conditions that are
rarely met in conversational product search. In this setting, user queries are
often ambiguous and evolving, and MLLMs alone have difficulty grounding
responses in a fixed product corpus. Motivated by these challenges, we propose
a novel framework that introduces test-time scaling into conversational
multimodal product retrieval. Our approach builds on a generative retriever,
further augmented with a test-time reranking (TTR) mechanism that improves
retrieval accuracy and better aligns results with evolving user intent
throughout the dialogue. Experiments across multiple benchmarks show consistent
improvements, with average gains of 14.5 points in MRR and 10.6 points in
nDCG@1.
Ссылки и действия
Дополнительные ресурсы: