Do Recommender Systems Really Leverage Multimodal Content? A Comprehensive Analysis on Multimodal Representations for Recommendation
2508.04571v1
cs.IR, cs.CL, cs.LG
2025-08-09
Авторы:
Claudio Pomo, Matteo Attimonelli, Danilo Danese, Fedelucio Narducci, Tommaso Di Noia
Резюме на русском
**Резюме**
В статье рассматривается проблема эффективности мультимодальных рекомендательных систем, которые используют различные типы содержимого (например, текст и изображения) для повышения точности рекомендаций. Авторы задают вопрос: природа получаемого выигрыша заключается лишь в усложнении модели или в истинном понимании мультимодальности? Для разрешения этой проблемы предлагается использовать Large Vision-Language Models (LVLMs), которые генерируют эмбеддинги, разработанные специально для мультимодальных задач. Эти эмбеддинги обеспечивают семантическую целостность и взаимное выравнивание между модальностями без необходимости дополнительных стратегий объединения. Эксперименты показали, что LVLMs не только улучшают точность рекомендаций, но и демонстрируют способность создавать понятные для людей структурированные тексты, демонстрирующие мультимодальное понимание системы. Этот подход устанавливает новый акцент на семантические репрезентации в рекомендательных системах и демонстрирует перспективу LVLMs в качестве основы для создания более значимых и эффективных мультимодальных моделей.
Abstract
Multimodal Recommender Systems aim to improve recommendation accuracy by
integrating heterogeneous content, such as images and textual metadata. While
effective, it remains unclear whether their gains stem from true multimodal
understanding or increased model complexity. This work investigates the role of
multimodal item embeddings, emphasizing the semantic informativeness of the
representations. Initial experiments reveal that embeddings from standard
extractors (e.g., ResNet50, Sentence-Bert) enhance performance, but rely on
modality-specific encoders and ad hoc fusion strategies that lack control over
cross-modal alignment. To overcome these limitations, we leverage Large
Vision-Language Models (LVLMs) to generate multimodal-by-design embeddings via
structured prompts. This approach yields semantically aligned representations
without requiring any fusion. Experiments across multiple settings show notable
performance improvements. Furthermore, LVLMs embeddings offer a distinctive
advantage: they can be decoded into structured textual descriptions, enabling
direct assessment of their multimodal comprehension. When such descriptions are
incorporated as side content into recommender systems, they improve
recommendation performance, empirically validating the semantic depth and
alignment encoded within LVLMs outputs. Our study highlights the importance of
semantically rich representations and positions LVLMs as a compelling
foundation for building robust and meaningful multimodal representations in
recommendation tasks.