EGRA:Toward Enhanced Behavior Graphs and Representation Alignment for Multimodal Recommendation
2508.16170v1
cs.IR, cs.AI
2025-08-26
Авторы:
Xiaoxiong Zhang, Xin Zhou, Zhiwei Zeng, Yongjie Wang, Dusit Niyato, Zhiqi Shen
Резюме на русском
#### Контекст
MultiModal Recommendation (MMR) системы представляют собой мощный подход к улучшению рекомендательных систем, используя богатые модальности содержимого товаров или услуг. Они поддерживаются значительным ростом в области компьютерного зрения, естественного языка и многих других технологий. Однако существуют критические проблемы. Первую связано с использованием необработанных модальных признаков для построения связей между элементами в поведенческих графах, что приводит к склонности к шуму и ограниченной учету коллаборативных паттернов. Вторая проблема заключается в неэффективном использовании механизмов корреляции модальности и поведения, из-за чего недостаточно усилены модальность-поведение корреляционные связи. Таким образом, необходимо разработать новые методы для облегчения этих ограничений.
#### Метод
Мы предлагаем EGRA (Enhanced Graph Representation Alignment), которая построена на двух ключевых инновациях. Во-первых, вместо непосредственного использования необработанных модальных признаков, EGRA создает поведенческий граф с помощью представлений, полученных от предобученной модели MMR. Это позволяет графу лучше отражать коллаборативные модели и модальные семантики, а также снизить шум. Во-вторых, EGRA вводит динамическую механику двухуровневого взвешивания связей, которая адаптивно регулирует силу связи в зависимости от ее уровня аллигации, при этом увеличивается общая сила связи в процессе обучения.
#### Результаты
Мы провели эксперименты на пяти различных датасетах, включая Amazon, Douban и MovieLens. Результаты показывают, что EGRA превосходит новейшие методы по метрикам Precision, Recall и NDCG. Этот улучшение доказывает ее эффективность в улучшении точности и стабильности рекомендаций. Более того, было проведено чувствительностное исследование, подтвердившее, что индивидуальные компоненты EGRA (например, динамическое взвешивание и построение графа) способствуют повышению качества рекомендаций.
#### Значимость
EGRA может применяться в различных рекомендательных системах, таких как покупки, видеопотоковые сервисы и другие области, где необходима сильная пользовательская сегментация и индивидуализация рекомендаций. Она предлагает преимущества в сокращении шума, улучшении точности и более устойчивой модальности-поведение аллигации. Будущие исследования будут сконцентрированы на экспандирующих EGRA для пользовательских поведенческих графов и интегрируя ее в более широкие системы рекомендаций.
#### Выводы
EGRA представляет собой прорыв в области модальности-поведение графов и доказывает ее эффективность в решении ключевых проблем MMR. Будущие работы буду
Abstract
MultiModal Recommendation (MMR) systems have emerged as a promising solution
for improving recommendation quality by leveraging rich item-side modality
information, prompting a surge of diverse methods. Despite these advances,
existing methods still face two critical limitations. First, they use raw
modality features to construct item-item links for enriching the behavior
graph, while giving limited attention to balancing collaborative and
modality-aware semantics or mitigating modality noise in the process. Second,
they use a uniform alignment weight across all entities and also maintain a
fixed alignment strength throughout training, limiting the effectiveness of
modality-behavior alignment. To address these challenges, we propose EGRA.
First, instead of relying on raw modality features, it alleviates sparsity by
incorporating into the behavior graph an item-item graph built from
representations generated by a pretrained MMR model. This enables the graph to
capture both collaborative patterns and modality aware similarities with
enhanced robustness against modality noise. Moreover, it introduces a novel
bi-level dynamic alignment weighting mechanism to improve modality-behavior
representation alignment, which dynamically assigns alignment strength across
entities according to their alignment degree, while gradually increasing the
overall alignment intensity throughout training. Extensive experiments on five
datasets show that EGRA significantly outperforms recent methods, confirming
its effectiveness.
Ссылки и действия
Дополнительные ресурсы: