SPARC: Soft Probabilistic Adaptive multi-interest Retrieval Model via Codebooks for recommender system
2508.09090v2
cs.IR, cs.AI
2025-08-14
Авторы:
Jialiang Shi, Yaguang Dou, Tian Qi
Резюме на русском
## Контекст
Моделирование множественных интересов является основной задачей в современных системах рекомендаций (RS). Однако существующие подходы сталкиваются с тремя ключевыми проблемами. Во-первых, интересы, извлекаемые из предварительно определенных внешних источников, являются неизменными и не могут адаптироваться к динамическим изменениям предпочтений потребления пользователей. Во-вторых, текущие методы ориентированы на оптимизацию соответствия существующим интересам, но не обеспечивают достаточное проявление активности в открытии новых и долгожданных интересов. Это приводит к ограниченности в поиске и открытии нового контента. Для решения этих проблем, предлагается прогностический подход, ориентированный на динамическое моделирование интересов.
## Метод
Предлагаемый подход, SPARC (Soft Probabilistic Adaptive Retrieval Model via Codebooks), основывается на новых методах квантования интересов и использования кодеков. Метод включает в себя следующие черты:
1. **Residual Quantized Variational Autoencoder (RQ-VAE)**: Этот механизм позволяет преобразовать нерегулярные интересы пользователей в дискретный пространственный формат. Он обучается в сочетании с промышленным модельным рекомендательным решением, чтобы извлекать динамические, поведенчески ориентированные интересы.
2. **Probabilistic Interest Module (PIM)**: Этот модуль использует вероятностную модель для оценки вероятностного распределения по всем дискретным интересам. Он позволяет осуществлять "мягкий поиск" во время онлайн-поиска, превращая процесс из пассивного соответствия в активное исследование.
## Результаты
Эксперименты проводились на опен-сорсных данных Amazon Product, а также в рамках индустриального применения, взаимодействующего с десятками миллионов активных пользователей ежедневно. Онлайн-тесты показали:
- Увеличение длительности просмотра пользователя на 0.9%.
- За счет поиска нового контента, увеличение просмотров страниц (PV) на 0.4%.
- Увеличение количества просмотров нового контента (PV500) на 22.7% за 24 часа.
Несколько оффлайн-метрик Recall@K и NDCG@K также показали значительные улучшения. Эти результаты доказывают эффективность SPARC в моделировании динамических интересов и улучшении рекомендательных систем.
## Значимость
Предложенный подход может применяться в различных целях, включая сферы коммерческих рекомендательных систем, социальных сетей и поисковых систем. Он обеспечивает более точную модель пользовательских предпочтений, что повышает качество рекомендаций и увеличивает пользовательский активность. SPARC также обеспечивает более прозрачное и проактивное исследование нового контента, улучшая возможност
Abstract
Modeling multi-interests has arisen as a core problem in real-world RS.
Current multi-interest retrieval methods pose three major challenges: 1)
Interests, typically extracted from predefined external knowledge, are
invariant. Failed to dynamically evolve with users' real-time consumption
preferences. 2) Online inference typically employs an over-exploited strategy,
mainly matching users' existing interests, lacking proactive exploration and
discovery of novel and long-tail interests. To address these challenges, we
propose a novel retrieval framework named SPARC(Soft Probabilistic Adaptive
Retrieval Model via Codebooks). Our contribution is two folds. First, the
framework utilizes Residual Quantized Variational Autoencoder (RQ-VAE) to
construct a discretized interest space. It achieves joint training of the
RQ-VAE with the industrial large scale recommendation model, mining
behavior-aware interests that can perceive user feedback and evolve
dynamically. Secondly, a probabilistic interest module that predicts the
probability distribution over the entire dynamic and discrete interest space.
This facilitates an efficient "soft-search" strategy during online inference,
revolutionizing the retrieval paradigm from "passive matching" to "proactive
exploration" and thereby effectively promoting interest discovery. Online A/B
tests on an industrial platform with tens of millions daily active users, have
achieved substantial gains in business metrics: +0.9% increase in user view
duration, +0.4% increase in user page views (PV), and a +22.7% improvement in
PV500(new content reaching 500 PVs in 24 hours). Offline evaluations are
conducted on open-source Amazon Product datasets. Metrics, such as Recall@K and
Normalized Discounted Cumulative Gain@K(NDCG@K), also showed consistent
improvement. Both online and offline experiments validate the efficacy and
practical value of the proposed method.
Ссылки и действия
Дополнительные ресурсы: