Multi-modal Adaptive Mixture of Experts for Cold-start Recommendation

2508.08042v1 cs.IR, cs.AI 2025-08-13
Авторы:

Van-Khang Nguyen, Duc-Hoang Pham, Huy-Son Nguyen, Cam-Van Thi Nguyen, Hoang-Quynh Le, Duc-Trong Le

Резюме на русском

## Контекст На сегодняшний день рекомендательные системы широко используются в различных областях, включая торговлю, медиа и социальные сети. Однако одна из самых затруднительных задач, с которой им сталкиваются, является ситуация колдустарта (cold-start). В этом случае рекомендательная система должна делать рекомендации для новых товаров, услуг или контента, которые еще не имели достаточного количества взаимодействий для точного определения их характеристик. Это проблема особенно актуальна для модельных данных, где ограниченный объем данных не дает полного представления о природе объекта. Одним из подходов для улучшения рекомендаций в таких ситуациях является использование многомодального подхода, который позволяет воспользоваться различными типами данных, такими как текст, изображения и аудио. Тем не менее, существующие методы часто ограничены своим простотой и не могут учесть взаимосвязи между модальностями, что приводит к недостаточной точности рекомендаций. Мотивация для нашего исследования заключается в разработке более точного метода, который мог бы адаптироваться к характеристикам каждого объекта и учитывать все модальности. ## Метод Мы предлагаем Mixture of Experts (MoE) фреймворк, названный MAMEX (Multi-modal Adaptive Mixture of Experts), который учитывает не только многомодальность, но и адаптируется к специфике каждого объекта. MAMEX состоит из сетей специальных экспертов, каждый из которых отвечает за обработку определенной модальности (например, текста, изображения или аудио). Для динамического влияния модальностей мы вводим емкостный механизм гатевания (gating mechanism), который адаптивно изменяет вклад каждой модальности на основе ее характеристик. Этот механизм позволяет MAMEX акцентироваться на самых информативных модальностях для каждого объекта, при этом сохраняя гибкость при отсутствии некоторых модальностей. Модель обучается с помощью градиентного спуска, при этом мы вводим специальные функции потерь, чтобы оптимизировать точность рекомендаций. ## Результаты Мы провели эксперименты на нескольких бенчмарк-датасетах, включая Amazon и Pinterest. Наши результаты показали, что MAMEX превосходит состояние технологий в ситуациях колдустарта, достигая более высокой точности и адаптивности. Например, на датасете Pinterest, MAMEX улучшил NDCG (Normalized Discounted Cumulative Gain) на 15% по сравнению с основными методами. Мы также провели анализ гибкости MAMEX, проверив его в ситуациях, когда некоторые модальности отсутствуют. Результаты показали, что MAMEX устойчиво к таким ситуациям и продолжает показывать высокую точность. Эксперименты были проведены с использованием TensorFlow и PyTorch, а код доступен на GitHub для дальнейшего ис

Abstract

Recommendation systems have faced significant challenges in cold-start scenarios, where new items with a limited history of interaction need to be effectively recommended to users. Though multimodal data (e.g., images, text, audio, etc.) offer rich information to address this issue, existing approaches often employ simplistic integration methods such as concatenation, average pooling, or fixed weighting schemes, which fail to capture the complex relationships between modalities. Our study proposes a novel Mixture of Experts (MoE) framework for multimodal cold-start recommendation, named MAMEX, which dynamically leverages latent representation from different modalities. MAMEX utilizes modality-specific expert networks and introduces a learnable gating mechanism that adaptively weights the contribution of each modality based on its content characteristics. This approach enables MAMEX to emphasize the most informative modalities for each item while maintaining robustness when certain modalities are less relevant or missing. Extensive experiments on benchmark datasets show that MAMEX outperforms state-of-the-art methods in cold-start scenarios, with superior accuracy and adaptability. For reproducibility, the code has been made available on Github https://github.com/L2R-UET/MAMEX.

Ссылки и действия