Rejuvenating Cross-Entropy Loss in Knowledge Distillation for Recommender Systems
2509.20989v1
cs.IR, cs.AI
2025-09-27
Авторы:
Zhangchi Zhu, Wei Zhang
Резюме на русском
## Контекст
Кросс-Энтропийный (CE) потери широко используется в обучении с учителем в задачах рекомендательных систем, особенно при использовании методов классификации для оценки релевантности предложенных объектов пользователю. Однако при использовании CE в методах классификации возникают проблемы, такие как нехватка сигнала слабых объектов, что может привести к ухудшению качества. Например, в случае рекомендательных систем, когда учитель и ученик работают со смешанными данными, CE может недостаточно учитывать целевые оценки, что приводит к неэффективному обучению. Для решения этой проблемы необходимо разработать эффективный подход, который учитывает особенности работы системы и позволяет достичь лучшей точности в задаче рекомендации.
## Метод
Мы предлагаем разработать усовершенствованный подход к классификации, который будет учитывать специфику работы рекомендательных систем. Это может включать в себя развитие модели, которая будет учитывать не только релевантность предложенных объектов, но и сигналы от слабых объектов. Модель должна иметь возможность адаптироваться к разным форматам данных и обеспечивать высокую точность в рекомендации. Также нужно разработать эффективные методы для оценки качества прогнозов, которые будут учитывать не только целевые оценки, но и сигналы от неточных прогнозов. Это позволит добиться более точных рекомендаций и улучшить пользовательский опыт.
## Результаты
В нашем исследовании мы проводили эксперименты с различными моделями, в том числе с моделью CE и предлагаемой моделью RCE-KD. Для сравнения использовались различные данные, включая данные из реальных рекомендательных систем. Мы измерили качество рекомендаций с помощью метрик, таких как NDCG и MAP. Результаты показали, что RCE-KD оказалась эффективнее CE в задаче классификации, особенно в случае смешанных данных. Это было достигнуто благодаря тому, что RCE-KD учитывала сигналы от слабых объектов и адаптировалась к разным форматам данных. Таким образом, наши результаты демонстрируют, что предлагаемая модель может быть эффективно использована в реальных рекомендательных системах.
## Значимость
Предлагаемый подход может быть применен в различных областях, где необходимо решать задачи классификации и рекомендации. Особенно эффективен он в случаях, когда данные смешанны, и необходимо учитывать не только целевые оценки, но и сигналы от слабых объектов. Наш подход обеспечивает более точные рекомендации и может привести к улучшению качества работы рекомендательных систем. Благодаря этому можно повысить удовлетворенность пользователей и увеличить эффективность рекомендательных систем.
## Выводы
Мы доказали
Abstract
This paper analyzes Cross-Entropy (CE) loss in knowledge distillation (KD)
for recommender systems. KD for recommender systems targets at distilling
rankings, especially among items most likely to be preferred, and can only be
computed on a small subset of items. Considering these features, we reveal the
connection between CE loss and NDCG in the field of KD. We prove that when
performing KD on an item subset, minimizing CE loss maximizes the lower bound
of NDCG, only if an assumption of closure is satisfied. It requires that the
item subset consists of the student's top items. However, this contradicts our
goal of distilling rankings of the teacher's top items. We empirically
demonstrate the vast gap between these two kinds of top items. To bridge the
gap between our goal and theoretical support, we propose Rejuvenated
Cross-Entropy for Knowledge Distillation (RCE-KD). It splits the top items
given by the teacher into two subsets based on whether they are highly ranked
by the student. For the subset that defies the condition, a sampling strategy
is devised to use teacher-student collaboration to approximate our assumption
of closure. We also combine the losses on the two subsets adaptively. Extensive
experiments demonstrate the effectiveness of our method. Our code is available
at https://anonymous.4open.science/r/RCE-KD.
Ссылки и действия
Дополнительные ресурсы: