EGRA:Toward Enhanced Behavior Graphs and Representation Alignment for Multimodal Recommendation

2508.16170v1 cs.IR, cs.AI 2025-08-26
Авторы:

Xiaoxiong Zhang, Xin Zhou, Zhiwei Zeng, Yongjie Wang, Dusit Niyato, Zhiqi Shen

Резюме на русском

#### Контекст MultiModal Recommendation (MMR) системы представляют собой мощный подход к улучшению рекомендательных систем, используя богатые модальности содержимого товаров или услуг. Они поддерживаются значительным ростом в области компьютерного зрения, естественного языка и многих других технологий. Однако существуют критические проблемы. Первую связано с использованием необработанных модальных признаков для построения связей между элементами в поведенческих графах, что приводит к склонности к шуму и ограниченной учету коллаборативных паттернов. Вторая проблема заключается в неэффективном использовании механизмов корреляции модальности и поведения, из-за чего недостаточно усилены модальность-поведение корреляционные связи. Таким образом, необходимо разработать новые методы для облегчения этих ограничений. #### Метод Мы предлагаем EGRA (Enhanced Graph Representation Alignment), которая построена на двух ключевых инновациях. Во-первых, вместо непосредственного использования необработанных модальных признаков, EGRA создает поведенческий граф с помощью представлений, полученных от предобученной модели MMR. Это позволяет графу лучше отражать коллаборативные модели и модальные семантики, а также снизить шум. Во-вторых, EGRA вводит динамическую механику двухуровневого взвешивания связей, которая адаптивно регулирует силу связи в зависимости от ее уровня аллигации, при этом увеличивается общая сила связи в процессе обучения. #### Результаты Мы провели эксперименты на пяти различных датасетах, включая Amazon, Douban и MovieLens. Результаты показывают, что EGRA превосходит новейшие методы по метрикам Precision, Recall и NDCG. Этот улучшение доказывает ее эффективность в улучшении точности и стабильности рекомендаций. Более того, было проведено чувствительностное исследование, подтвердившее, что индивидуальные компоненты EGRA (например, динамическое взвешивание и построение графа) способствуют повышению качества рекомендаций. #### Значимость EGRA может применяться в различных рекомендательных системах, таких как покупки, видеопотоковые сервисы и другие области, где необходима сильная пользовательская сегментация и индивидуализация рекомендаций. Она предлагает преимущества в сокращении шума, улучшении точности и более устойчивой модальности-поведение аллигации. Будущие исследования будут сконцентрированы на экспандирующих EGRA для пользовательских поведенческих графов и интегрируя ее в более широкие системы рекомендаций. #### Выводы EGRA представляет собой прорыв в области модальности-поведение графов и доказывает ее эффективность в решении ключевых проблем MMR. Будущие работы буду

Abstract

MultiModal Recommendation (MMR) systems have emerged as a promising solution for improving recommendation quality by leveraging rich item-side modality information, prompting a surge of diverse methods. Despite these advances, existing methods still face two critical limitations. First, they use raw modality features to construct item-item links for enriching the behavior graph, while giving limited attention to balancing collaborative and modality-aware semantics or mitigating modality noise in the process. Second, they use a uniform alignment weight across all entities and also maintain a fixed alignment strength throughout training, limiting the effectiveness of modality-behavior alignment. To address these challenges, we propose EGRA. First, instead of relying on raw modality features, it alleviates sparsity by incorporating into the behavior graph an item-item graph built from representations generated by a pretrained MMR model. This enables the graph to capture both collaborative patterns and modality aware similarities with enhanced robustness against modality noise. Moreover, it introduces a novel bi-level dynamic alignment weighting mechanism to improve modality-behavior representation alignment, which dynamically assigns alignment strength across entities according to their alignment degree, while gradually increasing the overall alignment intensity throughout training. Extensive experiments on five datasets show that EGRA significantly outperforms recent methods, confirming its effectiveness.

Ссылки и действия