Multi-modal Adaptive Mixture of Experts for Cold-start Recommendation
2508.08042v1
cs.IR, cs.AI
2025-08-13
Авторы:
Van-Khang Nguyen, Duc-Hoang Pham, Huy-Son Nguyen, Cam-Van Thi Nguyen, Hoang-Quynh Le, Duc-Trong Le
Резюме на русском
## Контекст
На сегодняшний день рекомендательные системы широко используются в различных областях, включая торговлю, медиа и социальные сети. Однако одна из самых затруднительных задач, с которой им сталкиваются, является ситуация колдустарта (cold-start). В этом случае рекомендательная система должна делать рекомендации для новых товаров, услуг или контента, которые еще не имели достаточного количества взаимодействий для точного определения их характеристик. Это проблема особенно актуальна для модельных данных, где ограниченный объем данных не дает полного представления о природе объекта. Одним из подходов для улучшения рекомендаций в таких ситуациях является использование многомодального подхода, который позволяет воспользоваться различными типами данных, такими как текст, изображения и аудио. Тем не менее, существующие методы часто ограничены своим простотой и не могут учесть взаимосвязи между модальностями, что приводит к недостаточной точности рекомендаций. Мотивация для нашего исследования заключается в разработке более точного метода, который мог бы адаптироваться к характеристикам каждого объекта и учитывать все модальности.
## Метод
Мы предлагаем Mixture of Experts (MoE) фреймворк, названный MAMEX (Multi-modal Adaptive Mixture of Experts), который учитывает не только многомодальность, но и адаптируется к специфике каждого объекта. MAMEX состоит из сетей специальных экспертов, каждый из которых отвечает за обработку определенной модальности (например, текста, изображения или аудио). Для динамического влияния модальностей мы вводим емкостный механизм гатевания (gating mechanism), который адаптивно изменяет вклад каждой модальности на основе ее характеристик. Этот механизм позволяет MAMEX акцентироваться на самых информативных модальностях для каждого объекта, при этом сохраняя гибкость при отсутствии некоторых модальностей. Модель обучается с помощью градиентного спуска, при этом мы вводим специальные функции потерь, чтобы оптимизировать точность рекомендаций.
## Результаты
Мы провели эксперименты на нескольких бенчмарк-датасетах, включая Amazon и Pinterest. Наши результаты показали, что MAMEX превосходит состояние технологий в ситуациях колдустарта, достигая более высокой точности и адаптивности. Например, на датасете Pinterest, MAMEX улучшил NDCG (Normalized Discounted Cumulative Gain) на 15% по сравнению с основными методами. Мы также провели анализ гибкости MAMEX, проверив его в ситуациях, когда некоторые модальности отсутствуют. Результаты показали, что MAMEX устойчиво к таким ситуациям и продолжает показывать высокую точность. Эксперименты были проведены с использованием TensorFlow и PyTorch, а код доступен на GitHub для дальнейшего ис
Abstract
Recommendation systems have faced significant challenges in cold-start
scenarios, where new items with a limited history of interaction need to be
effectively recommended to users. Though multimodal data (e.g., images, text,
audio, etc.) offer rich information to address this issue, existing approaches
often employ simplistic integration methods such as concatenation, average
pooling, or fixed weighting schemes, which fail to capture the complex
relationships between modalities. Our study proposes a novel Mixture of Experts
(MoE) framework for multimodal cold-start recommendation, named MAMEX, which
dynamically leverages latent representation from different modalities. MAMEX
utilizes modality-specific expert networks and introduces a learnable gating
mechanism that adaptively weights the contribution of each modality based on
its content characteristics. This approach enables MAMEX to emphasize the most
informative modalities for each item while maintaining robustness when certain
modalities are less relevant or missing. Extensive experiments on benchmark
datasets show that MAMEX outperforms state-of-the-art methods in cold-start
scenarios, with superior accuracy and adaptability. For reproducibility, the
code has been made available on Github https://github.com/L2R-UET/MAMEX.
Ссылки и действия
Дополнительные ресурсы: