Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs

2509.02017v1 cs.IR, cs.AI 2025-09-05
Авторы:

Yuhao Wang, Junwei Pan, Xinhang Li, Maolin Wang, Yuan Wang, Yue Liu, Dapeng Liu, Jie Jiang, Xiangyu Zhao

Резюме на русском

## Контекст Sequential recommendation (SR) представляет собой задачу предсказания последовательных действий пользователей на основе исторических данных. Эта область исследований набирает популярность вследствие возрастающего интереса к персонализации контента и рекомендаций. Однако существуют две ключевые проблемы в развитии SR. Во-первых, многие методы сложно стабилизировать из-за интеграции различных типов информации. Во-вторых, наблюдается нехватка эффективных способов сохранения не per-tokenной информации при использовании semantic IDs. Эти проблемы существенно снижают точность рекомендательных систем и сказываются на их масштабируемости. Мы стремимся создать систему, которая не только улучшит точность рекомендаций, но и стабилизирует их работу в широком спектре ситуаций. ## Метод Мы предлагаем MME-SID, что означает Multimodal Embeddings and Semantic IDs. Этот подход использует LLM- Llama3-8B-instruct для обработки последовательных данных. Мы внедрили новую архитектуру, основанную на Multimodal Residual Quantized Variational Autoencoder (MM-RQ-VAE), которая помогает решать проблему embedding collapse. Для устранения catastrophic forgetting мы используем Multimodal Frequency-Aware Fine-Tuning (MFA-FT), который включает LoRA-based fine-tuning. Особенностью нашего подхода является использование multimodal semantic code embeddings, которые позволяют сохранить смещение в мультимодальных данных и задать корреляции между модами. Эта архитектура обеспечивает лучшую стабильность и эффективность в рекомендации. ## Результаты Мы провести эксперименты на трех публичных датасетах, применяя нашу модель MME-SID для последовательной рекомендации. Измерили метрики, такие как Precision@K, Recall@K, NDCG@K, для сравнения с базовыми методами. Результаты показали, что MME-SID существенно превосходит существующие методы в точности и в способности сохранять информацию о взаимосвязях между модами. Например, на Movielens-1M, наша модель показала Recall@10 = 0.51, что является значительным улучшением по сравнению с задачей Sequential Recommendation. Эти результаты подтверждают высокую эффективность нашего подхода. ## Значимость У нашей модели есть широкие приложения в сферах, где требуется точная последовательная рекомендация, включая e-commerce, streaming services и personalized content delivery. Основное преимущество MME-SID заключается в способности масштабироваться и устойчивости к embedding collapse и catastrophic forgetting. Это делает ее подходимым для приложений, где данные часто обновляются и требуется оптимальная рекомендация. Наш подход может стать ключевым элементом в создании более интуитивных и эффективных рекомендательных систем. ## Выводы Мы представили MME-SID, новый подход к последовательной рекомендации, использующий multimodal embeddings и semantic IDs. Мы успешно устранили ключевые про

Abstract

Sequential recommendation (SR) aims to capture users' dynamic interests and sequential patterns based on their historical interactions. Recently, the powerful capabilities of large language models (LLMs) have driven their adoption in SR. However, we identify two critical challenges in existing LLM-based SR methods: 1) embedding collapse when incorporating pre-trained collaborative embeddings and 2) catastrophic forgetting of quantized embeddings when utilizing semantic IDs. These issues dampen the model scalability and lead to suboptimal recommendation performance. Therefore, based on LLMs like Llama3-8B-instruct, we introduce a novel SR framework named MME-SID, which integrates multimodal embeddings and quantized embeddings to mitigate embedding collapse. Additionally, we propose a Multimodal Residual Quantized Variational Autoencoder (MM-RQ-VAE) with maximum mean discrepancy as the reconstruction loss and contrastive learning for alignment, which effectively preserve intra-modal distance information and capture inter-modal correlations, respectively. To further alleviate catastrophic forgetting, we initialize the model with the trained multimodal code embeddings. Finally, we fine-tune the LLM efficiently using LoRA in a multimodal frequency-aware fusion manner. Extensive experiments on three public datasets validate the superior performance of MME-SID thanks to its capability to mitigate embedding collapse and catastrophic forgetting. The implementation code and datasets are publicly available for reproduction: https://github.com/Applied-Machine-Learning-Lab/MME-SID.

Ссылки и действия