UniECS: Unified Multimodal E-Commerce Search Framework with Gated Cross-modal Fusion

2508.13843v1 cs.IR, cs.AI 2025-08-21

Авторы:

Zihan Liang, Yufei Ma, ZhiPeng Qian, Huangyu Dai, Zihan Wang, Ben Chen, Chenyi Lei, Yuqing Ding, Han Li

Резюме на русском

## Контекст Область исследования сосредотачивается на развитии многомодальных фреймворков для поиска в сфере электронной коммерции (e-commerce). Настоящие системы поиска часто оптимизируются для конкретных задач с фиксированными парами модальностей (например, изображения и текст). Это приводит к ограниченной поддержке всеобъемлющих подходов и отсутствию широкой базы данных для оценки таких подходов. В этом контексте возникает необходимость в фреймворке, объединяющем все виды модальностей, чтобы улучшить точность поиска и обеспечить гибкость при работе с недостающими данными. ## Метод UniECS представляет собой универсальную многомодальную систему поиска, которая объединяет поиск по изображениям, тексту и их комбинациям. Основой UniECS является новая модальность с возможностью сдвига (gated multimodal encoder), которая использует адаптивные механизмы слияния для объединения представлений разных модальностей. Этот подход адаптируется к отсутствию модальностей, обеспечивая устойчивую работу. Также разработана сложная стратегия тренировки, включающая в себя loss-функции для выравнивания межмодальностей (CMAL), регионального выравнивания (CLAL), контрастного межмодального способа (IMCL) и адаптивного взвешивания loss-функций. Эти методы усиления обучения повышают точность и общую эффективность системы. ## Результаты Исследователи проводили эксперименты на четырёх различных наборах данных электронной коммерции, а также использовали собственный M-BEER бенчмарк, содержащий 50,000 пар продуктов для оценки поиска. UniECS показал существенное превосходство по сравнению с существующими методами, особенно в задачах перекрестной модальности, таких как тексто-изображения поиск (до 28% улучшение в R@10). Модель работает с параметрами в 0.2 миллиарда, что более эффективно, чем более крупные модели, такие как GME-Qwen2VL (2 миллиарда параметров) и MM-Embed (8 миллиардов параметров). Также, UniECS был развернут на платформе поиска Kuaishou Inc., где он демонстрирует улучшение CTR (+2.74%) и дохода (+8.33%). ## Значимость UniECS может применяться в различных сферах, включая электронную коммерцию, социальные сети и поисковые системы. Он обеспечивает улучшенную точность и гибкость по сравнению с существующими технологиями. Его мощь заключается в универсальности и эффективности, которая позволяет использовать его в различных сценариях. Это не только улучшает пользовательский опыт, но и повышает эффективность бизнеса. ## Выводы UniECS создает новый стандарт для многомодальных поисковых систем, обеспечивая универсальную архитект

Abstract

Current e-commerce multimodal retrieval systems face two key limitations: they optimize for specific tasks with fixed modality pairings, and lack comprehensive benchmarks for evaluating unified retrieval approaches. To address these challenges, we introduce UniECS, a unified multimodal e-commerce search framework that handles all retrieval scenarios across image, text, and their combinations. Our work makes three key contributions. First, we propose a flexible architecture with a novel gated multimodal encoder that uses adaptive fusion mechanisms. This encoder integrates different modality representations while handling missing modalities. Second, we develop a comprehensive training strategy to optimize learning. It combines cross-modal alignment loss (CMAL), cohesive local alignment loss (CLAL), intra-modal contrastive loss (IMCL), and adaptive loss weighting. Third, we create M-BEER, a carefully curated multimodal benchmark containing 50K product pairs for e-commerce search evaluation. Extensive experiments demonstrate that UniECS consistently outperforms existing methods across four e-commerce benchmarks with fine-tuning or zero-shot evaluation. On our M-BEER bench, UniECS achieves substantial improvements in cross-modal tasks (up to 28\% gain in R@10 for text-to-image retrieval) while maintaining parameter efficiency (0.2B parameters) compared to larger models like GME-Qwen2VL (2B) and MM-Embed (8B). Furthermore, we deploy UniECS in the e-commerce search platform of Kuaishou Inc. across two search scenarios, achieving notable improvements in Click-Through Rate (+2.74\%) and Revenue (+8.33\%). The comprehensive evaluation demonstrates the effectiveness of our approach in both experimental and real-world settings. Corresponding codes, models and datasets will be made publicly available at https://github.com/qzp2018/UniECS.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

UniECS: Unified Multimodal E-Commerce Search Framework with Gated Cross-modal Fusion

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augme...

Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation

Q-BERT4Rec: Quantized Semantic-ID Representation Learning for Multimodal Recomme...

AskNearby: An LLM-Based Application for Neighborhood Information Retrieval and P...

Evaluating Embedding Models and Pipeline Optimization for AI Search Quality

Навигация