Causal Negative Sampling via Diffusion Model for Out-of-Distribution Recommendation

2508.07243v1 cs.LG, cs.AI 2025-08-13
Авторы:

Chu Zhao, Eneng Yang, Yizhou Dang, Jianzhe Zhao, Guibing Guo, Xingwei Wang

Резюме на русском

## Контекст Поиск рекомендаций в неизвестных областях (Out-of-Distribution, OOD) является важной задачей в области технологий рекомендаций. Одним из ключевых исходящих беспокойств в этой области является выбор достоверных негативных примеров (негативное семплирование). Многие существующие методы рекомендаций, такие как heuristic negative sampling, выбирают негативные примеры из ограниченных кандидатских пулов, чтобы направить модель на обучение точных границ решений. Однако, эти методы опасны в том случае, если кандидатские пулы содержат условия искажения, такие как популярность или экспозиция. Такие условия могут привести к ложноположительным "ложно-тяжелым" негативным примерам (FHNS), что, в свою очередь, может вызвать спуриозные зависимости в модели и снизить ее устойчивость к сдвигу распределений. Данная статья адресует эту проблему, предлагая метод Causal Negative Sampling via Diffusion (CNSDiff), который стремится создать более устойчивые и точные негативные примеры для OOD-рекомендаций. ## Метод CNSDiff вводит метод синтеза негативных примеров в латентном пространстве с помощью процесса условной диффузии. Этот процесс позволяет сэмплировать негативные примеры непосредственно из латентного пространства, а не из предварительно определенных кандидатских пулов. Это снижает влияние ложноположительных "ложно-тяжелых" негативных примеров (FHNS), так как негативные примеры становятся более точными и не зависят от популярности или экспозиционных факторов. Для улучшения устойчивости к сдвигу распределений, CNSDiff добавляет к модели каскадное регулирование, которое основывается на принципах гипотезы причинности (causal regularization). Это регулирование минимизирует влияние популярности и экспозиции в кандидатских примерах, чтобы сделать модель более устойчивой к сдвигу распределений. Таким образом, CNSDiff способствует более точному и устойчивому обучению модели, способной работать в условиях сдвигов распределений. ## Результаты Для оценки эффективности CNSDiff проводились широкие эксперименты под управлением четырех различных сценариев сдвига распределений. Использовались данные из реальной среды рекомендаций, чтобы эмулировать реальные ситуации сдвига распределений. Результаты показали, что CNSDiff обеспечил средний улучшение в 13.96% по всем оценочным метрикам по сравнению с состоянием технологии (SOTA) методами для OOD-рекомендаций. Эти результаты подтверждают то, что CNSDiff не только улучшил точность модели, но и увеличил ее устойчивость к сдвигу распределений, установив новый стандарт в рекомендательных системах. ## Значимость CNSDiff имеет широкие области применения в OOD-рекомендации, вк

Abstract

Heuristic negative sampling enhances recommendation performance by selecting negative samples of varying hardness levels from predefined candidate pools to guide the model toward learning more accurate decision boundaries. However, our empirical and theoretical analyses reveal that unobserved environmental confounders (e.g., exposure or popularity biases) in candidate pools may cause heuristic sampling methods to introduce false hard negatives (FHNS). These misleading samples can encourage the model to learn spurious correlations induced by such confounders, ultimately compromising its generalization ability under distribution shifts. To address this issue, we propose a novel method named Causal Negative Sampling via Diffusion (CNSDiff). By synthesizing negative samples in the latent space via a conditional diffusion process, CNSDiff avoids the bias introduced by predefined candidate pools and thus reduces the likelihood of generating FHNS. Moreover, it incorporates a causal regularization term to explicitly mitigate the influence of environmental confounders during the negative sampling process, leading to robust negatives that promote out-of-distribution (OOD) generalization. Comprehensive experiments under four representative distribution shift scenarios demonstrate that CNSDiff achieves an average improvement of 13.96% across all evaluation metrics compared to state-of-the-art baselines, verifying its effectiveness and robustness in OOD recommendation tasks.

Ссылки и действия