Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs
2509.02017v1
cs.IR, cs.AI
2025-09-05
Авторы:
Yuhao Wang, Junwei Pan, Xinhang Li, Maolin Wang, Yuan Wang, Yue Liu, Dapeng Liu, Jie Jiang, Xiangyu Zhao
Резюме на русском
## Контекст
Sequential recommendation (SR) представляет собой задачу предсказания последовательных действий пользователей на основе исторических данных. Эта область исследований набирает популярность вследствие возрастающего интереса к персонализации контента и рекомендаций. Однако существуют две ключевые проблемы в развитии SR. Во-первых, многие методы сложно стабилизировать из-за интеграции различных типов информации. Во-вторых, наблюдается нехватка эффективных способов сохранения не per-tokenной информации при использовании semantic IDs. Эти проблемы существенно снижают точность рекомендательных систем и сказываются на их масштабируемости. Мы стремимся создать систему, которая не только улучшит точность рекомендаций, но и стабилизирует их работу в широком спектре ситуаций.
## Метод
Мы предлагаем MME-SID, что означает Multimodal Embeddings and Semantic IDs. Этот подход использует LLM- Llama3-8B-instruct для обработки последовательных данных. Мы внедрили новую архитектуру, основанную на Multimodal Residual Quantized Variational Autoencoder (MM-RQ-VAE), которая помогает решать проблему embedding collapse. Для устранения catastrophic forgetting мы используем Multimodal Frequency-Aware Fine-Tuning (MFA-FT), который включает LoRA-based fine-tuning. Особенностью нашего подхода является использование multimodal semantic code embeddings, которые позволяют сохранить смещение в мультимодальных данных и задать корреляции между модами. Эта архитектура обеспечивает лучшую стабильность и эффективность в рекомендации.
## Результаты
Мы провести эксперименты на трех публичных датасетах, применяя нашу модель MME-SID для последовательной рекомендации. Измерили метрики, такие как Precision@K, Recall@K, NDCG@K, для сравнения с базовыми методами. Результаты показали, что MME-SID существенно превосходит существующие методы в точности и в способности сохранять информацию о взаимосвязях между модами. Например, на Movielens-1M, наша модель показала Recall@10 = 0.51, что является значительным улучшением по сравнению с задачей Sequential Recommendation. Эти результаты подтверждают высокую эффективность нашего подхода.
## Значимость
У нашей модели есть широкие приложения в сферах, где требуется точная последовательная рекомендация, включая e-commerce, streaming services и personalized content delivery. Основное преимущество MME-SID заключается в способности масштабироваться и устойчивости к embedding collapse и catastrophic forgetting. Это делает ее подходимым для приложений, где данные часто обновляются и требуется оптимальная рекомендация. Наш подход может стать ключевым элементом в создании более интуитивных и эффективных рекомендательных систем.
## Выводы
Мы представили MME-SID, новый подход к последовательной рекомендации, использующий multimodal embeddings и semantic IDs. Мы успешно устранили ключевые про
Abstract
Sequential recommendation (SR) aims to capture users' dynamic interests and
sequential patterns based on their historical interactions. Recently, the
powerful capabilities of large language models (LLMs) have driven their
adoption in SR. However, we identify two critical challenges in existing
LLM-based SR methods: 1) embedding collapse when incorporating pre-trained
collaborative embeddings and 2) catastrophic forgetting of quantized embeddings
when utilizing semantic IDs. These issues dampen the model scalability and lead
to suboptimal recommendation performance. Therefore, based on LLMs like
Llama3-8B-instruct, we introduce a novel SR framework named MME-SID, which
integrates multimodal embeddings and quantized embeddings to mitigate embedding
collapse. Additionally, we propose a Multimodal Residual Quantized Variational
Autoencoder (MM-RQ-VAE) with maximum mean discrepancy as the reconstruction
loss and contrastive learning for alignment, which effectively preserve
intra-modal distance information and capture inter-modal correlations,
respectively. To further alleviate catastrophic forgetting, we initialize the
model with the trained multimodal code embeddings. Finally, we fine-tune the
LLM efficiently using LoRA in a multimodal frequency-aware fusion manner.
Extensive experiments on three public datasets validate the superior
performance of MME-SID thanks to its capability to mitigate embedding collapse
and catastrophic forgetting. The implementation code and datasets are publicly
available for reproduction:
https://github.com/Applied-Machine-Learning-Lab/MME-SID.
Ссылки и действия
Дополнительные ресурсы: