Breaking the Cold-Start Barrier: Reinforcement Learning with Double and Dueling DQNs
2508.21259v1
cs.IR, cs.AI
2025-09-02
Авторы:
Minda Zhao
Резюме на русском
## Контекст
Recommender systems широко используются в цифровых платформах для предоставления персонализированных рекомендаций, но сталкиваются с осложнениями при работе с новыми пользователями или с небольшим историческим объемом взаимодействий. Этот аспект известен как "колдутство пользователя" (cold-start problem). Он ставит перед рекомендационными системами вызов: как динамически адаптироваться к новым пользователям, не имея достаточного объема данных для точных рекомендаций. Недостаток в использовании личных данных, таких как возраст, пол или информация о местоположении, также становится важной проблемой из-за роста заболевания около крупных данных. В этом контексте необходимо разработать методы, позволяющие рекомендационным системам эффективно ориентироваться в условиях отсутствия или ограниченности данных.
## Метод
Методология, предложенная в статье, основывается на использовании динамических методов обучения с подкреплением (Reinforcement Learning, RL). В частности, в качестве основы выбраны две развитые модели DQN: Double DQN и Dueling DQN. Double DQN улучшает точность оценки вознаграждений, а Dueling DQN разделяет ценность (value) и приоритет (advantage) действий, что позволяет более эффективно обучаться в условиях плохого обучения. Метод также использует модель матричного факторирования для поиска скрытых предпочтений пользователей. Эти модели объединены в единую архитектуру, позволяющую эффективно обучаться от скелетных фидбеков новых пользователей, при этом избегая зависимости от чувствительных личных данных.
## Результаты
Исследование проводилось на большом датасете электронной коммерции. Модель была сравнивалась с популярными методами, такими как популярность-ориентированные и активное обучение. Результаты показали, что использование Dueling DQN существенно уменьшает Root Mean Square Error (RMSE) для класса пользователей с низким интерактивным историческим объемом. Модель Double DQN также демонстрировала высокую точность, но Dueling DQN превосходила её в ситуациях с ограниченной информацией. Эти результаты указывают на эффективность подхода в условиях низкого данных и чувствительности к конфиденциальности.
## Значимость
Предложенный подход имеет широкое применение в сферах, где необходима качественная рекомендация в условиях ограниченных данных, в том числе в e-commerce, социальных сетях и медицинских системах. Он обеспечивает более точные рекомендации без зависимости от чувствительных личных данных, что улучшает защиту конфиденциальности пользователя. Благодаря использованию RL, метод значительно улучшает адаптивность систем к новым пользователям, что делает его привлекательным для развивающихся платформ с бы
Abstract
Recommender systems struggle to provide accurate suggestions to new users
with limited interaction history, a challenge known as the cold-user problem.
This paper proposes a reinforcement learning approach using Double and Dueling
Deep Q-Networks (DQN) to dynamically learn user preferences from sparse
feedback, enhancing recommendation accuracy without relying on sensitive
demographic data. By integrating these advanced DQN variants with a matrix
factorization model, we achieve superior performance on a large e-commerce
dataset compared to traditional methods like popularity-based and active
learning strategies. Experimental results show that our method, particularly
Dueling DQN, reduces Root Mean Square Error (RMSE) for cold users, offering an
effective solution for privacy-constrained environments.
Ссылки и действия
Дополнительные ресурсы: