Multi-Modal Multi-Behavior Sequential Recommendation with Conditional Diffusion-Based Feature Denoising
2508.05352v1
cs.IR, cs.AI
2025-08-09
Авторы:
Xiaoxi Cui, Weihai Lu, Yu Tong, Yiheng Li, Zhejun Zhao
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Секвенциальные системы рекомендаций играют ключевую роль в прогнозировании пользовательских предпочтений, основываясь на истории взаимодействий. Однако существуют существенные проблемы, связанные с интеграцией разнообразных пользовательских поведений и многомодальной информации об элементах. Данная статья фокусируется на мультимодальной секвенциальной рекомендации, которая призвана решить несколько ключевых проблем.
Во-первых, неэффективная характеризация модальных предпочтений у разных типов поведения. Пользовательское внимание к разным модальностям (например, изображениям, текстам, видео) может значительно варьироваться в зависимости от типа поведения, что усложняет создание точных моделей. Во-вторых, существует проблема неявного шума в пользовательских данных, такого как случайные клики, которые могут исказить модель предпочтений. Наконец, шум в мультимодальных представлениях может существенно повлиять на качество моделирования пользовательских предпочтений.
Эти вызовы демонстрируют необходимость разработки новых подходов, способных эффективно решать проблемы шума в модальных и поведенческих данных, а также точно извлекать интересы пользователя на основе мультимодальной информации.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Чтобы решить эти проблемы, авторы предлагают новую модель **Multi-Modal Multi-Behavior Sequential Recommendation (M³BSR)**. Она состоит из трех ключевых компонентов.
1. **Conditional Diffusion Modality Denoising Layer**: Этот слой удаляет шум из мультимодальных представлений. Он использует кондиционирующую диффузию для того, чтобы очистить модальные данные от шума, который может влиять на качество моделирования пользовательских предпочтений.
2. **Conditional Diffusion Behavior Denoising**: Этот компонент очищает шум из неявного поведения пользователя, такого как непреднамеренные действия. Он использует глубокую информацию о поведении для того, чтобы руководить очисткой данных, связанных с более поверхностными поведенческими моделями.
3. **Multi-Expert Interest Extraction Layer**: Этот слой моделирует общие и специфические интересы пользователя на основе различных модальностей и типов поведения. Это позволяет модели точнее представлять пользовательские предпочтения.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы провели ряд экспериментов на различных бенчмарк-данных, чтобы оценить эффективность модели M³BSR. Результаты показали, что M³BSR значительно превосходит существующие состояния искусства в секвенциальной рекомендации. Модель демонстрирует высокую точность в прогнозировании пользовательских предпочтений, особенно при работе с мультимодальными данными и при наличии шума в пользовательских поведениях.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Модель M³BSR имеет широкое применение в сфере электронной коммерции, рекламы и других областях, где необходимо точно предсказывать пользовательские предпочтения. Она позволяет эффективно обрабатывать мультимодальные данные, уменьшая влияние шума и улучшая качество рекомендаций. Это может привести к более эффективной личностной рекламе, повышенному вовлеченности пользователей и повышенной эффективности рекомендательных систем.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В статье представлена модель M³BSR, которая эффективно решает проблемы шума в модальных и поведенческих данных. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности диффузионных слоев и на применении этого подхода к другим областям, где мультимодальные данные играют ключевую роль.
Abstract
The sequential recommendation system utilizes historical user interactions to
predict preferences. Effectively integrating diverse user behavior patterns
with rich multimodal information of items to enhance the accuracy of sequential
recommendations is an emerging and challenging research direction. This paper
focuses on the problem of multi-modal multi-behavior sequential recommendation,
aiming to address the following challenges: (1) the lack of effective
characterization of modal preferences across different behaviors, as user
attention to different item modalities varies depending on the behavior; (2)
the difficulty of effectively mitigating implicit noise in user behavior, such
as unintended actions like accidental clicks; (3) the inability to handle
modality noise in multi-modal representations, which further impacts the
accurate modeling of user preferences. To tackle these issues, we propose a
novel Multi-Modal Multi-Behavior Sequential Recommendation model (M$^3$BSR).
This model first removes noise in multi-modal representations using a
Conditional Diffusion Modality Denoising Layer. Subsequently, it utilizes deep
behavioral information to guide the denoising of shallow behavioral data,
thereby alleviating the impact of noise in implicit feedback through
Conditional Diffusion Behavior Denoising. Finally, by introducing a
Multi-Expert Interest Extraction Layer, M$^3$BSR explicitly models the common
and specific interests across behaviors and modalities to enhance
recommendation performance. Experimental results indicate that M$^3$BSR
significantly outperforms existing state-of-the-art methods on benchmark
datasets.
Ссылки и действия
Дополнительные ресурсы: