Multi-Modal Multi-Behavior Sequential Recommendation with Conditional Diffusion-Based Feature Denoising

2508.05352v1 cs.IR, cs.AI 2025-08-09

Авторы:

Xiaoxi Cui, Weihai Lu, Yu Tong, Yiheng Li, Zhejun Zhao

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Секвенциальные системы рекомендаций играют ключевую роль в прогнозировании пользовательских предпочтений, основываясь на истории взаимодействий. Однако существуют существенные проблемы, связанные с интеграцией разнообразных пользовательских поведений и многомодальной информации об элементах. Данная статья фокусируется на мультимодальной секвенциальной рекомендации, которая призвана решить несколько ключевых проблем. Во-первых, неэффективная характеризация модальных предпочтений у разных типов поведения. Пользовательское внимание к разным модальностям (например, изображениям, текстам, видео) может значительно варьироваться в зависимости от типа поведения, что усложняет создание точных моделей. Во-вторых, существует проблема неявного шума в пользовательских данных, такого как случайные клики, которые могут исказить модель предпочтений. Наконец, шум в мультимодальных представлениях может существенно повлиять на качество моделирования пользовательских предпочтений. Эти вызовы демонстрируют необходимость разработки новых подходов, способных эффективно решать проблемы шума в модальных и поведенческих данных, а также точно извлекать интересы пользователя на основе мультимодальной информации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить эти проблемы, авторы предлагают новую модель **Multi-Modal Multi-Behavior Sequential Recommendation (M³BSR)**. Она состоит из трех ключевых компонентов. 1. **Conditional Diffusion Modality Denoising Layer**: Этот слой удаляет шум из мультимодальных представлений. Он использует кондиционирующую диффузию для того, чтобы очистить модальные данные от шума, который может влиять на качество моделирования пользовательских предпочтений. 2. **Conditional Diffusion Behavior Denoising**: Этот компонент очищает шум из неявного поведения пользователя, такого как непреднамеренные действия. Он использует глубокую информацию о поведении для того, чтобы руководить очисткой данных, связанных с более поверхностными поведенческими моделями. 3. **Multi-Expert Interest Extraction Layer**: Этот слой моделирует общие и специфические интересы пользователя на основе различных модальностей и типов поведения. Это позволяет модели точнее представлять пользовательские предпочтения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на различных бенчмарк-данных, чтобы оценить эффективность модели M³BSR. Результаты показали, что M³BSR значительно превосходит существующие состояния искусства в секвенциальной рекомендации. Модель демонстрирует высокую точность в прогнозировании пользовательских предпочтений, особенно при работе с мультимодальными данными и при наличии шума в пользовательских поведениях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Модель M³BSR имеет широкое применение в сфере электронной коммерции, рекламы и других областях, где необходимо точно предсказывать пользовательские предпочтения. Она позволяет эффективно обрабатывать мультимодальные данные, уменьшая влияние шума и улучшая качество рекомендаций. Это может привести к более эффективной личностной рекламе, повышенному вовлеченности пользователей и повышенной эффективности рекомендательных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В статье представлена модель M³BSR, которая эффективно решает проблемы шума в модальных и поведенческих данных. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности диффузионных слоев и на применении этого подхода к другим областям, где мультимодальные данные играют ключевую роль.

Abstract

The sequential recommendation system utilizes historical user interactions to predict preferences. Effectively integrating diverse user behavior patterns with rich multimodal information of items to enhance the accuracy of sequential recommendations is an emerging and challenging research direction. This paper focuses on the problem of multi-modal multi-behavior sequential recommendation, aiming to address the following challenges: (1) the lack of effective characterization of modal preferences across different behaviors, as user attention to different item modalities varies depending on the behavior; (2) the difficulty of effectively mitigating implicit noise in user behavior, such as unintended actions like accidental clicks; (3) the inability to handle modality noise in multi-modal representations, which further impacts the accurate modeling of user preferences. To tackle these issues, we propose a novel Multi-Modal Multi-Behavior Sequential Recommendation model (M$^3$BSR). This model first removes noise in multi-modal representations using a Conditional Diffusion Modality Denoising Layer. Subsequently, it utilizes deep behavioral information to guide the denoising of shallow behavioral data, thereby alleviating the impact of noise in implicit feedback through Conditional Diffusion Behavior Denoising. Finally, by introducing a Multi-Expert Interest Extraction Layer, M$^3$BSR explicitly models the common and specific interests across behaviors and modalities to enhance recommendation performance. Experimental results indicate that M$^3$BSR significantly outperforms existing state-of-the-art methods on benchmark datasets.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Multi-Modal Multi-Behavior Sequential Recommendation with Conditional Diffusion-Based Feature Denoising

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augme...

Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation

Q-BERT4Rec: Quantized Semantic-ID Representation Learning for Multimodal Recomme...

AskNearby: An LLM-Based Application for Neighborhood Information Retrieval and P...

Evaluating Embedding Models and Pipeline Optimization for AI Search Quality

Навигация