SPARC: Soft Probabilistic Adaptive multi-interest Retrieval Model via Codebooks for recommender system

2508.09090v2 cs.IR, cs.AI 2025-08-14
Авторы:

Jialiang Shi, Yaguang Dou, Tian Qi

Резюме на русском

## Контекст Моделирование множественных интересов является основной задачей в современных системах рекомендаций (RS). Однако существующие подходы сталкиваются с тремя ключевыми проблемами. Во-первых, интересы, извлекаемые из предварительно определенных внешних источников, являются неизменными и не могут адаптироваться к динамическим изменениям предпочтений потребления пользователей. Во-вторых, текущие методы ориентированы на оптимизацию соответствия существующим интересам, но не обеспечивают достаточное проявление активности в открытии новых и долгожданных интересов. Это приводит к ограниченности в поиске и открытии нового контента. Для решения этих проблем, предлагается прогностический подход, ориентированный на динамическое моделирование интересов. ## Метод Предлагаемый подход, SPARC (Soft Probabilistic Adaptive Retrieval Model via Codebooks), основывается на новых методах квантования интересов и использования кодеков. Метод включает в себя следующие черты: 1. **Residual Quantized Variational Autoencoder (RQ-VAE)**: Этот механизм позволяет преобразовать нерегулярные интересы пользователей в дискретный пространственный формат. Он обучается в сочетании с промышленным модельным рекомендательным решением, чтобы извлекать динамические, поведенчески ориентированные интересы. 2. **Probabilistic Interest Module (PIM)**: Этот модуль использует вероятностную модель для оценки вероятностного распределения по всем дискретным интересам. Он позволяет осуществлять "мягкий поиск" во время онлайн-поиска, превращая процесс из пассивного соответствия в активное исследование. ## Результаты Эксперименты проводились на опен-сорсных данных Amazon Product, а также в рамках индустриального применения, взаимодействующего с десятками миллионов активных пользователей ежедневно. Онлайн-тесты показали: - Увеличение длительности просмотра пользователя на 0.9%. - За счет поиска нового контента, увеличение просмотров страниц (PV) на 0.4%. - Увеличение количества просмотров нового контента (PV500) на 22.7% за 24 часа. Несколько оффлайн-метрик Recall@K и NDCG@K также показали значительные улучшения. Эти результаты доказывают эффективность SPARC в моделировании динамических интересов и улучшении рекомендательных систем. ## Значимость Предложенный подход может применяться в различных целях, включая сферы коммерческих рекомендательных систем, социальных сетей и поисковых систем. Он обеспечивает более точную модель пользовательских предпочтений, что повышает качество рекомендаций и увеличивает пользовательский активность. SPARC также обеспечивает более прозрачное и проактивное исследование нового контента, улучшая возможност

Abstract

Modeling multi-interests has arisen as a core problem in real-world RS. Current multi-interest retrieval methods pose three major challenges: 1) Interests, typically extracted from predefined external knowledge, are invariant. Failed to dynamically evolve with users' real-time consumption preferences. 2) Online inference typically employs an over-exploited strategy, mainly matching users' existing interests, lacking proactive exploration and discovery of novel and long-tail interests. To address these challenges, we propose a novel retrieval framework named SPARC(Soft Probabilistic Adaptive Retrieval Model via Codebooks). Our contribution is two folds. First, the framework utilizes Residual Quantized Variational Autoencoder (RQ-VAE) to construct a discretized interest space. It achieves joint training of the RQ-VAE with the industrial large scale recommendation model, mining behavior-aware interests that can perceive user feedback and evolve dynamically. Secondly, a probabilistic interest module that predicts the probability distribution over the entire dynamic and discrete interest space. This facilitates an efficient "soft-search" strategy during online inference, revolutionizing the retrieval paradigm from "passive matching" to "proactive exploration" and thereby effectively promoting interest discovery. Online A/B tests on an industrial platform with tens of millions daily active users, have achieved substantial gains in business metrics: +0.9% increase in user view duration, +0.4% increase in user page views (PV), and a +22.7% improvement in PV500(new content reaching 500 PVs in 24 hours). Offline evaluations are conducted on open-source Amazon Product datasets. Metrics, such as Recall@K and Normalized Discounted Cumulative Gain@K(NDCG@K), also showed consistent improvement. Both online and offline experiments validate the efficacy and practical value of the proposed method.

Ссылки и действия