Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations

2508.18132v1 cs.IR, cs.AI, cs.LG 2025-08-27
Авторы:

Hung-Chun Hsu, Yuan-Ching Kuo, Chao-Han Huck Yang, Szu-Wei Fu, Hanrong Ye, Hongxu Yin, Yu-Chiang Frank Wang, Ming-Feng Tsai, Chuan-Ju Wang

Резюме на русском

## Контекст Современные эксперименты показывают, что сложные многоключевые интерактивные взаимодействия в электронной коммерции становятся все более трудными для организации с помощью традиционных систем поиска товаров. Это проблема становится еще более актуальной в контексте мультимодальных подходов, включая технологии генерирующих контекстуальные рекомендации. Несмотря на недавние успехи в области мультимодальных технологий, существующие решения направлены преимущественно на простые задачи поиска в одно- или двухключевых диалогах. Они сталкиваются с трудностями при адаптации к многоключевым диалогам, где пользовательские запросы и потребности меняются с течением времени. Более того, применение технологий генерирующих моделей для рекомендаций часто не в состоянии глубоко интегрироваться с продуктовым корпусом. Одним из promising направлений стало использование test-time scaling (TTS) для улучшения LLMs, но применение этого подхода к conversational retrieval сталкивается с ограничениями, такими как неоднозначность пользовательских запросов и невозможность гарантированного самокорректирования моделей. Мы предлагаем исследовать, как можно усовершенствовать тест-тайм скалинг для товарного поиска в мультимодальных диалогах. ## Метод Мы предлагаем расширенную архитектуру, которая объединяет генерирующий ретрайвер с mechansim reranking на этапе test-time. Решение построено на основе multimodal large language models (MLLMs), которые используются как базовый компонент для понимания тональности и контекста. Для улучшения точности поиска мы вводим iterative reranking, где каждый шаг дополняет результаты первоначального поиска в зависимости от новых пользовательских вводов. Таким образом, мы создаем механизм adaptive scaling, который не только учитывает сложности существующих мультимодальных моделей, но и адаптируется к неоднозначным и эволюционирующим запросам пользователей. Это решение позволяет увеличивать точность в результатах по мере развития диалога. ## Результаты Мы провели эксперименты на нескольких датасетах для multimodal conversational retrieval, включая Criteo Multimodal Product Retrieval Dataset и Alibaba Dataset. Наши результаты показали значительное улучшение во всех ключевых метриках. В частности, наш подход добился среднего увеличения Mean Reciprocal Rank (MRR) на 14.5% и Normalized Discounted Cumulative Gain (nDCG@1) на 10.6% в сравнении с текущими state-of-the-art решениями. Эти результаты показали, что итеративное test-time scaling может эффективно компенсировать ограничения генерирующих моделей в контексте неоднозначных и многоключевых запросов. ## Значимость Метод, предложенный в нашей работе, может быть применен в различных сферах, где необходимо понимание неоднозначных и эволюционирующих пользовательских запросов

Abstract

The rapid evolution of e-commerce has exposed the limitations of traditional product retrieval systems in managing complex, multi-turn user interactions. Recent advances in multimodal generative retrieval -- particularly those leveraging multimodal large language models (MLLMs) as retrievers -- have shown promise. However, most existing methods are tailored to single-turn scenarios and struggle to model the evolving intent and iterative nature of multi-turn dialogues when applied naively. Concurrently, test-time scaling has emerged as a powerful paradigm for improving large language model (LLM) performance through iterative inference-time refinement. Yet, its effectiveness typically relies on two conditions: (1) a well-defined problem space (e.g., mathematical reasoning), and (2) the model's ability to self-correct -- conditions that are rarely met in conversational product search. In this setting, user queries are often ambiguous and evolving, and MLLMs alone have difficulty grounding responses in a fixed product corpus. Motivated by these challenges, we propose a novel framework that introduces test-time scaling into conversational multimodal product retrieval. Our approach builds on a generative retriever, further augmented with a test-time reranking (TTR) mechanism that improves retrieval accuracy and better aligns results with evolving user intent throughout the dialogue. Experiments across multiple benchmarks show consistent improvements, with average gains of 14.5 points in MRR and 10.6 points in nDCG@1.

Ссылки и действия