Multimodal Representation-disentangled Information Bottleneck for Multimodal Recommendation
2509.20225v1
cs.IR, cs.AI
2025-09-26
Авторы:
Hui Wang, Jinghui Qin, Wushao Wen, Qingling Li, Shanshan Zhong, Zhongzhan Huang
Резюме на русском
#### Контекст
Рекомендательные системы становятся важной частью современных цифровых платформ, помогая пользователям выбирать товары, услуги или контент. Использование многомодальных данных, таких как текст, изображения и метаданные, стало ключевым подходом для улучшения точности рекомендаций. Однако эти системы часто сталкиваются с проблемами, такими как наличие ненужной или дублирующейся информации, которая может снижать качество рекомендаций. Большинство существующих подходов либо неэффективно объединяют множество модальностей, либо прибегают к строгому разделению архитектур, недостаточно эффективно отфильтровывая ненужные сигналы. Этот факт побудил авторов разработать новую модель, которая бы аккуратно отделяла полезную информацию от шума и моделировала сложное взаимодействие между модальностями.
#### Метод
Предлагаемая модель, Multimodal Representation-disentangled Information Bottleneck (MRdIB), основывается на идее информационного бутцелла. Она использует подходы для сжатия многомодальных представлений, эффективно отфильтровывая ненужные сигналы. Для дальнейшей декомплексации многомодальной информации, MRdIB разделяет ее на три субъективных компоненты: уникальную, дублирующуюся и синергетическую. Для этого применяются специальные ограничения: цель уникальной информации, снижающаяся по отношению к дублирующейся, и цель синергетической, которая позволяет выделить взаимодействия. Эта трехступенчатая стратегия позволяет модели лучше ориентироваться на целевую задачу рекомендаций, оставив за собой только самую полезную информацию.
#### Результаты
Разработчики проверили эффективность MRdIB на нескольких современных моделях и трех различных рекомендательных базах данных. Использовались различные метрики качества рекомендаций, такие как NDCG и Recall. Результаты показали, что MRdIB превосходит имеющиеся методы в сравнительных экспериментах, улучшая качество рекомендаций благодаря более точной и декомплексной обработке мультимодальных данных. Модель доказала свою мощь в различных контекстах, включая видеорекомендации и товары в интернет-магазинах.
#### Значимость
Предложенный подход может быть применен в различных областях, где требуется качественный вариант рекомендаций, включая электронную коммерцию, социальные сети и медиа. Основное преимущество MRdIB заключается в его универсальности и точности, особенно в ситуациях с большим объемом многомодальных данных. Будущие исследования могут сосредоточиться на дальнейшем усовершенствовании этой модели, а также его применении в сложных сценариях, таких как работа с видео и музы
Abstract
Multimodal data has significantly advanced recommendation systems by
integrating diverse information sources to model user preferences and item
characteristics. However, these systems often struggle with redundant and
irrelevant information, which can degrade performance. Most existing methods
either fuse multimodal information directly or use rigid architectural
separation for disentanglement, failing to adequately filter noise and model
the complex interplay between modalities. To address these challenges, we
propose a novel framework, the Multimodal Representation-disentangled
Information Bottleneck (MRdIB). Concretely, we first employ a Multimodal
Information Bottleneck to compress the input representations, effectively
filtering out task-irrelevant noise while preserving rich semantic information.
Then, we decompose the information based on its relationship with the
recommendation target into unique, redundant, and synergistic components. We
achieve this decomposition with a series of constraints: a unique information
learning objective to preserve modality-unique signals, a redundant information
learning objective to minimize overlap, and a synergistic information learning
objective to capture emergent information. By optimizing these objectives,
MRdIB guides a model to learn more powerful and disentangled representations.
Extensive experiments on several competitive models and three benchmark
datasets demonstrate the effectiveness and versatility of our MRdIB in
enhancing multimodal recommendation.
Ссылки и действия
Дополнительные ресурсы: