Semantic Item Graph Enhancement for Multimodal Recommendation
2508.06154v1
cs.IR, cs.AI, cs.MM
2025-08-12
Авторы:
Xiaoxiong Zhang, Xin Zhou, Zhiwei Zeng, Dusit Niyato, Zhiqi Shen
Резюме на русском
## Контекст
Многоmodalная рекомендация стала одной из самых просматриваемых областей в машинном обучении и рекомендательных системах. Она ориентируется на использование разнообразных модальных данных (например, текст, картинки, звук) для повышения точности рекомендации. Несмотря на высокую производительность многих существующих рекомендательных систем, они часто сталкиваются с проблемами, такими как недостаточное использование семантических связей между элементами, влияние шума в данных и недостаточная точность восприятия пользовательских предпочтений. Эти проблемы существенно снижают эффективность рекомендательных систем. Таким образом, необходимо разработать методы, которые могут эффективно обрабатывать многоmodalные данные, улучшать семантические связи и становиться устойчивыми к шуму в данных.
## Метод
Метод, предлагаемый в статье, называется Semantic Item Graph Enhancement for Multimodal Recommendation. Он включает несколько ключевых элементов:
1. **Информационное взаимодействие между модальностями**: Авторы используют модальности для строительства семантических графов элементов, внедряя сигналы взаимодействия пользователей с этими модальностями.
2. **Механизм персонализированного взятия перестройки**: Данный механизм внедряет перестройки в графы семантических связей элементов, которые ориентированы на персональные характеристики пользователя.
3. **Двойной механизм выравнивания представлений**: Авторы применяют два уровня выравнивания — один для семантических графов, а другой для поведенческих данных. Это позволяет добиться консистентности в представлении и уменьшить влияние шума в данных.
## Результаты
Проведенные эксперименты показали высокую эффективность производительности метода на четырёх различных датасетах. Авторы демонстрируют, что использование многоmodalных семантических графов, вдобавок к стандартным поведенческим графам, позволяет значительно улучшить точность рекомендаций. Также оптимизация с помощью модулярной перестройки и двойного выравнивания представлений дает стабильность и уменьшает влияние шума в данных.
## Значимость
Этот метод может быть использован в различных областях, включая электронную коммерцию, социальные сети и медиа-рекомендации. Он обеспечивает более точные рекомендации, уменьшает влияние шума в данных и улучшает удобство использования рекомендательных систем. Благодаря своей модулярной архитектуре, он может быть простым внедрен в существующие рекомендательные системы, давая им новый потенциал для улучшения.
## Выводы
Метод Semantic Item Graph Enhancement for Multimodal Recommendation демонстрирует эффективность в обработке многоmodalных д
Abstract
Multimodal recommendation systems have attracted increasing attention for
their improved performance by leveraging items' multimodal information. Prior
methods often build modality-specific item-item semantic graphs from raw
modality features and use them as supplementary structures alongside the
user-item interaction graph to enhance user preference learning. However, these
semantic graphs suffer from semantic deficiencies, including (1) insufficient
modeling of collaborative signals among items and (2) structural distortions
introduced by noise in raw modality features, ultimately compromising
performance. To address these issues, we first extract collaborative signals
from the interaction graph and infuse them into each modality-specific item
semantic graph to enhance semantic modeling. Then, we design a modulus-based
personalized embedding perturbation mechanism that injects perturbations with
modulus-guided personalized intensity into embeddings to generate contrastive
views. This enables the model to learn noise-robust representations through
contrastive learning, thereby reducing the effect of structural noise in
semantic graphs. Besides, we propose a dual representation alignment mechanism
that first aligns multiple semantic representations via a designed Anchor-based
InfoNCE loss using behavior representations as anchors, and then aligns
behavior representations with the fused semantics by standard InfoNCE, to
ensure representation consistency. Extensive experiments on four benchmark
datasets validate the effectiveness of our framework.
Ссылки и действия
Дополнительные ресурсы: