Causal Negative Sampling via Diffusion Model for Out-of-Distribution Recommendation
2508.07243v1
cs.LG, cs.AI
2025-08-13
Авторы:
Chu Zhao, Eneng Yang, Yizhou Dang, Jianzhe Zhao, Guibing Guo, Xingwei Wang
Резюме на русском
## Контекст
Поиск рекомендаций в неизвестных областях (Out-of-Distribution, OOD) является важной задачей в области технологий рекомендаций. Одним из ключевых исходящих беспокойств в этой области является выбор достоверных негативных примеров (негативное семплирование). Многие существующие методы рекомендаций, такие как heuristic negative sampling, выбирают негативные примеры из ограниченных кандидатских пулов, чтобы направить модель на обучение точных границ решений. Однако, эти методы опасны в том случае, если кандидатские пулы содержат условия искажения, такие как популярность или экспозиция. Такие условия могут привести к ложноположительным "ложно-тяжелым" негативным примерам (FHNS), что, в свою очередь, может вызвать спуриозные зависимости в модели и снизить ее устойчивость к сдвигу распределений. Данная статья адресует эту проблему, предлагая метод Causal Negative Sampling via Diffusion (CNSDiff), который стремится создать более устойчивые и точные негативные примеры для OOD-рекомендаций.
## Метод
CNSDiff вводит метод синтеза негативных примеров в латентном пространстве с помощью процесса условной диффузии. Этот процесс позволяет сэмплировать негативные примеры непосредственно из латентного пространства, а не из предварительно определенных кандидатских пулов. Это снижает влияние ложноположительных "ложно-тяжелых" негативных примеров (FHNS), так как негативные примеры становятся более точными и не зависят от популярности или экспозиционных факторов. Для улучшения устойчивости к сдвигу распределений, CNSDiff добавляет к модели каскадное регулирование, которое основывается на принципах гипотезы причинности (causal regularization). Это регулирование минимизирует влияние популярности и экспозиции в кандидатских примерах, чтобы сделать модель более устойчивой к сдвигу распределений. Таким образом, CNSDiff способствует более точному и устойчивому обучению модели, способной работать в условиях сдвигов распределений.
## Результаты
Для оценки эффективности CNSDiff проводились широкие эксперименты под управлением четырех различных сценариев сдвига распределений. Использовались данные из реальной среды рекомендаций, чтобы эмулировать реальные ситуации сдвига распределений. Результаты показали, что CNSDiff обеспечил средний улучшение в 13.96% по всем оценочным метрикам по сравнению с состоянием технологии (SOTA) методами для OOD-рекомендаций. Эти результаты подтверждают то, что CNSDiff не только улучшил точность модели, но и увеличил ее устойчивость к сдвигу распределений, установив новый стандарт в рекомендательных системах.
## Значимость
CNSDiff имеет широкие области применения в OOD-рекомендации, вк
Abstract
Heuristic negative sampling enhances recommendation performance by selecting
negative samples of varying hardness levels from predefined candidate pools to
guide the model toward learning more accurate decision boundaries. However, our
empirical and theoretical analyses reveal that unobserved environmental
confounders (e.g., exposure or popularity biases) in candidate pools may cause
heuristic sampling methods to introduce false hard negatives (FHNS). These
misleading samples can encourage the model to learn spurious correlations
induced by such confounders, ultimately compromising its generalization ability
under distribution shifts. To address this issue, we propose a novel method
named Causal Negative Sampling via Diffusion (CNSDiff). By synthesizing
negative samples in the latent space via a conditional diffusion process,
CNSDiff avoids the bias introduced by predefined candidate pools and thus
reduces the likelihood of generating FHNS. Moreover, it incorporates a causal
regularization term to explicitly mitigate the influence of environmental
confounders during the negative sampling process, leading to robust negatives
that promote out-of-distribution (OOD) generalization. Comprehensive
experiments under four representative distribution shift scenarios demonstrate
that CNSDiff achieves an average improvement of 13.96% across all evaluation
metrics compared to state-of-the-art baselines, verifying its effectiveness and
robustness in OOD recommendation tasks.
Ссылки и действия
Дополнительные ресурсы: