Breaking the Cold-Start Barrier: Reinforcement Learning with Double and Dueling DQNs

2508.21259v1 cs.IR, cs.AI 2025-09-02

Авторы:

Minda Zhao

Резюме на русском

## Контекст Recommender systems широко используются в цифровых платформах для предоставления персонализированных рекомендаций, но сталкиваются с осложнениями при работе с новыми пользователями или с небольшим историческим объемом взаимодействий. Этот аспект известен как "колдутство пользователя" (cold-start problem). Он ставит перед рекомендационными системами вызов: как динамически адаптироваться к новым пользователям, не имея достаточного объема данных для точных рекомендаций. Недостаток в использовании личных данных, таких как возраст, пол или информация о местоположении, также становится важной проблемой из-за роста заболевания около крупных данных. В этом контексте необходимо разработать методы, позволяющие рекомендационным системам эффективно ориентироваться в условиях отсутствия или ограниченности данных. ## Метод Методология, предложенная в статье, основывается на использовании динамических методов обучения с подкреплением (Reinforcement Learning, RL). В частности, в качестве основы выбраны две развитые модели DQN: Double DQN и Dueling DQN. Double DQN улучшает точность оценки вознаграждений, а Dueling DQN разделяет ценность (value) и приоритет (advantage) действий, что позволяет более эффективно обучаться в условиях плохого обучения. Метод также использует модель матричного факторирования для поиска скрытых предпочтений пользователей. Эти модели объединены в единую архитектуру, позволяющую эффективно обучаться от скелетных фидбеков новых пользователей, при этом избегая зависимости от чувствительных личных данных. ## Результаты Исследование проводилось на большом датасете электронной коммерции. Модель была сравнивалась с популярными методами, такими как популярность-ориентированные и активное обучение. Результаты показали, что использование Dueling DQN существенно уменьшает Root Mean Square Error (RMSE) для класса пользователей с низким интерактивным историческим объемом. Модель Double DQN также демонстрировала высокую точность, но Dueling DQN превосходила её в ситуациях с ограниченной информацией. Эти результаты указывают на эффективность подхода в условиях низкого данных и чувствительности к конфиденциальности. ## Значимость Предложенный подход имеет широкое применение в сферах, где необходима качественная рекомендация в условиях ограниченных данных, в том числе в e-commerce, социальных сетях и медицинских системах. Он обеспечивает более точные рекомендации без зависимости от чувствительных личных данных, что улучшает защиту конфиденциальности пользователя. Благодаря использованию RL, метод значительно улучшает адаптивность систем к новым пользователям, что делает его привлекательным для развивающихся платформ с бы

Abstract

Recommender systems struggle to provide accurate suggestions to new users with limited interaction history, a challenge known as the cold-user problem. This paper proposes a reinforcement learning approach using Double and Dueling Deep Q-Networks (DQN) to dynamically learn user preferences from sparse feedback, enhancing recommendation accuracy without relying on sensitive demographic data. By integrating these advanced DQN variants with a matrix factorization model, we achieve superior performance on a large e-commerce dataset compared to traditional methods like popularity-based and active learning strategies. Experimental results show that our method, particularly Dueling DQN, reduces Root Mean Square Error (RMSE) for cold users, offering an effective solution for privacy-constrained environments.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Breaking the Cold-Start Barrier: Reinforcement Learning with Double and Dueling DQNs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augme...

Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation

Q-BERT4Rec: Quantized Semantic-ID Representation Learning for Multimodal Recomme...

AskNearby: An LLM-Based Application for Neighborhood Information Retrieval and P...

Evaluating Embedding Models and Pipeline Optimization for AI Search Quality

Навигация