Multimodal Representation-disentangled Information Bottleneck for Multimodal Recommendation

2509.20225v1 cs.IR, cs.AI 2025-09-26
Авторы:

Hui Wang, Jinghui Qin, Wushao Wen, Qingling Li, Shanshan Zhong, Zhongzhan Huang

Резюме на русском

#### Контекст Рекомендательные системы становятся важной частью современных цифровых платформ, помогая пользователям выбирать товары, услуги или контент. Использование многомодальных данных, таких как текст, изображения и метаданные, стало ключевым подходом для улучшения точности рекомендаций. Однако эти системы часто сталкиваются с проблемами, такими как наличие ненужной или дублирующейся информации, которая может снижать качество рекомендаций. Большинство существующих подходов либо неэффективно объединяют множество модальностей, либо прибегают к строгому разделению архитектур, недостаточно эффективно отфильтровывая ненужные сигналы. Этот факт побудил авторов разработать новую модель, которая бы аккуратно отделяла полезную информацию от шума и моделировала сложное взаимодействие между модальностями. #### Метод Предлагаемая модель, Multimodal Representation-disentangled Information Bottleneck (MRdIB), основывается на идее информационного бутцелла. Она использует подходы для сжатия многомодальных представлений, эффективно отфильтровывая ненужные сигналы. Для дальнейшей декомплексации многомодальной информации, MRdIB разделяет ее на три субъективных компоненты: уникальную, дублирующуюся и синергетическую. Для этого применяются специальные ограничения: цель уникальной информации, снижающаяся по отношению к дублирующейся, и цель синергетической, которая позволяет выделить взаимодействия. Эта трехступенчатая стратегия позволяет модели лучше ориентироваться на целевую задачу рекомендаций, оставив за собой только самую полезную информацию. #### Результаты Разработчики проверили эффективность MRdIB на нескольких современных моделях и трех различных рекомендательных базах данных. Использовались различные метрики качества рекомендаций, такие как NDCG и Recall. Результаты показали, что MRdIB превосходит имеющиеся методы в сравнительных экспериментах, улучшая качество рекомендаций благодаря более точной и декомплексной обработке мультимодальных данных. Модель доказала свою мощь в различных контекстах, включая видеорекомендации и товары в интернет-магазинах. #### Значимость Предложенный подход может быть применен в различных областях, где требуется качественный вариант рекомендаций, включая электронную коммерцию, социальные сети и медиа. Основное преимущество MRdIB заключается в его универсальности и точности, особенно в ситуациях с большим объемом многомодальных данных. Будущие исследования могут сосредоточиться на дальнейшем усовершенствовании этой модели, а также его применении в сложных сценариях, таких как работа с видео и музы

Abstract

Multimodal data has significantly advanced recommendation systems by integrating diverse information sources to model user preferences and item characteristics. However, these systems often struggle with redundant and irrelevant information, which can degrade performance. Most existing methods either fuse multimodal information directly or use rigid architectural separation for disentanglement, failing to adequately filter noise and model the complex interplay between modalities. To address these challenges, we propose a novel framework, the Multimodal Representation-disentangled Information Bottleneck (MRdIB). Concretely, we first employ a Multimodal Information Bottleneck to compress the input representations, effectively filtering out task-irrelevant noise while preserving rich semantic information. Then, we decompose the information based on its relationship with the recommendation target into unique, redundant, and synergistic components. We achieve this decomposition with a series of constraints: a unique information learning objective to preserve modality-unique signals, a redundant information learning objective to minimize overlap, and a synergistic information learning objective to capture emergent information. By optimizing these objectives, MRdIB guides a model to learn more powerful and disentangled representations. Extensive experiments on several competitive models and three benchmark datasets demonstrate the effectiveness and versatility of our MRdIB in enhancing multimodal recommendation.

Ссылки и действия