Semantic Item Graph Enhancement for Multimodal Recommendation

2508.06154v1 cs.IR, cs.AI, cs.MM 2025-08-12
Авторы:

Xiaoxiong Zhang, Xin Zhou, Zhiwei Zeng, Dusit Niyato, Zhiqi Shen

Резюме на русском

## Контекст Многоmodalная рекомендация стала одной из самых просматриваемых областей в машинном обучении и рекомендательных системах. Она ориентируется на использование разнообразных модальных данных (например, текст, картинки, звук) для повышения точности рекомендации. Несмотря на высокую производительность многих существующих рекомендательных систем, они часто сталкиваются с проблемами, такими как недостаточное использование семантических связей между элементами, влияние шума в данных и недостаточная точность восприятия пользовательских предпочтений. Эти проблемы существенно снижают эффективность рекомендательных систем. Таким образом, необходимо разработать методы, которые могут эффективно обрабатывать многоmodalные данные, улучшать семантические связи и становиться устойчивыми к шуму в данных. ## Метод Метод, предлагаемый в статье, называется Semantic Item Graph Enhancement for Multimodal Recommendation. Он включает несколько ключевых элементов: 1. **Информационное взаимодействие между модальностями**: Авторы используют модальности для строительства семантических графов элементов, внедряя сигналы взаимодействия пользователей с этими модальностями. 2. **Механизм персонализированного взятия перестройки**: Данный механизм внедряет перестройки в графы семантических связей элементов, которые ориентированы на персональные характеристики пользователя. 3. **Двойной механизм выравнивания представлений**: Авторы применяют два уровня выравнивания — один для семантических графов, а другой для поведенческих данных. Это позволяет добиться консистентности в представлении и уменьшить влияние шума в данных. ## Результаты Проведенные эксперименты показали высокую эффективность производительности метода на четырёх различных датасетах. Авторы демонстрируют, что использование многоmodalных семантических графов, вдобавок к стандартным поведенческим графам, позволяет значительно улучшить точность рекомендаций. Также оптимизация с помощью модулярной перестройки и двойного выравнивания представлений дает стабильность и уменьшает влияние шума в данных. ## Значимость Этот метод может быть использован в различных областях, включая электронную коммерцию, социальные сети и медиа-рекомендации. Он обеспечивает более точные рекомендации, уменьшает влияние шума в данных и улучшает удобство использования рекомендательных систем. Благодаря своей модулярной архитектуре, он может быть простым внедрен в существующие рекомендательные системы, давая им новый потенциал для улучшения. ## Выводы Метод Semantic Item Graph Enhancement for Multimodal Recommendation демонстрирует эффективность в обработке многоmodalных д

Abstract

Multimodal recommendation systems have attracted increasing attention for their improved performance by leveraging items' multimodal information. Prior methods often build modality-specific item-item semantic graphs from raw modality features and use them as supplementary structures alongside the user-item interaction graph to enhance user preference learning. However, these semantic graphs suffer from semantic deficiencies, including (1) insufficient modeling of collaborative signals among items and (2) structural distortions introduced by noise in raw modality features, ultimately compromising performance. To address these issues, we first extract collaborative signals from the interaction graph and infuse them into each modality-specific item semantic graph to enhance semantic modeling. Then, we design a modulus-based personalized embedding perturbation mechanism that injects perturbations with modulus-guided personalized intensity into embeddings to generate contrastive views. This enables the model to learn noise-robust representations through contrastive learning, thereby reducing the effect of structural noise in semantic graphs. Besides, we propose a dual representation alignment mechanism that first aligns multiple semantic representations via a designed Anchor-based InfoNCE loss using behavior representations as anchors, and then aligns behavior representations with the fused semantics by standard InfoNCE, to ensure representation consistency. Extensive experiments on four benchmark datasets validate the effectiveness of our framework.

Ссылки и действия