UniECS: Unified Multimodal E-Commerce Search Framework with Gated Cross-modal Fusion
2508.13843v1
cs.IR, cs.AI
2025-08-21
Авторы:
Zihan Liang, Yufei Ma, ZhiPeng Qian, Huangyu Dai, Zihan Wang, Ben Chen, Chenyi Lei, Yuqing Ding, Han Li
Резюме на русском
## Контекст
Область исследования сосредотачивается на развитии многомодальных фреймворков для поиска в сфере электронной коммерции (e-commerce). Настоящие системы поиска часто оптимизируются для конкретных задач с фиксированными парами модальностей (например, изображения и текст). Это приводит к ограниченной поддержке всеобъемлющих подходов и отсутствию широкой базы данных для оценки таких подходов. В этом контексте возникает необходимость в фреймворке, объединяющем все виды модальностей, чтобы улучшить точность поиска и обеспечить гибкость при работе с недостающими данными.
## Метод
UniECS представляет собой универсальную многомодальную систему поиска, которая объединяет поиск по изображениям, тексту и их комбинациям. Основой UniECS является новая модальность с возможностью сдвига (gated multimodal encoder), которая использует адаптивные механизмы слияния для объединения представлений разных модальностей. Этот подход адаптируется к отсутствию модальностей, обеспечивая устойчивую работу. Также разработана сложная стратегия тренировки, включающая в себя loss-функции для выравнивания межмодальностей (CMAL), регионального выравнивания (CLAL), контрастного межмодального способа (IMCL) и адаптивного взвешивания loss-функций. Эти методы усиления обучения повышают точность и общую эффективность системы.
## Результаты
Исследователи проводили эксперименты на четырёх различных наборах данных электронной коммерции, а также использовали собственный M-BEER бенчмарк, содержащий 50,000 пар продуктов для оценки поиска. UniECS показал существенное превосходство по сравнению с существующими методами, особенно в задачах перекрестной модальности, таких как тексто-изображения поиск (до 28% улучшение в R@10). Модель работает с параметрами в 0.2 миллиарда, что более эффективно, чем более крупные модели, такие как GME-Qwen2VL (2 миллиарда параметров) и MM-Embed (8 миллиардов параметров). Также, UniECS был развернут на платформе поиска Kuaishou Inc., где он демонстрирует улучшение CTR (+2.74%) и дохода (+8.33%).
## Значимость
UniECS может применяться в различных сферах, включая электронную коммерцию, социальные сети и поисковые системы. Он обеспечивает улучшенную точность и гибкость по сравнению с существующими технологиями. Его мощь заключается в универсальности и эффективности, которая позволяет использовать его в различных сценариях. Это не только улучшает пользовательский опыт, но и повышает эффективность бизнеса.
## Выводы
UniECS создает новый стандарт для многомодальных поисковых систем, обеспечивая универсальную архитект
Abstract
Current e-commerce multimodal retrieval systems face two key limitations:
they optimize for specific tasks with fixed modality pairings, and lack
comprehensive benchmarks for evaluating unified retrieval approaches. To
address these challenges, we introduce UniECS, a unified multimodal e-commerce
search framework that handles all retrieval scenarios across image, text, and
their combinations. Our work makes three key contributions. First, we propose a
flexible architecture with a novel gated multimodal encoder that uses adaptive
fusion mechanisms. This encoder integrates different modality representations
while handling missing modalities. Second, we develop a comprehensive training
strategy to optimize learning. It combines cross-modal alignment loss (CMAL),
cohesive local alignment loss (CLAL), intra-modal contrastive loss (IMCL), and
adaptive loss weighting. Third, we create M-BEER, a carefully curated
multimodal benchmark containing 50K product pairs for e-commerce search
evaluation. Extensive experiments demonstrate that UniECS consistently
outperforms existing methods across four e-commerce benchmarks with fine-tuning
or zero-shot evaluation. On our M-BEER bench, UniECS achieves substantial
improvements in cross-modal tasks (up to 28\% gain in R@10 for text-to-image
retrieval) while maintaining parameter efficiency (0.2B parameters) compared to
larger models like GME-Qwen2VL (2B) and MM-Embed (8B). Furthermore, we deploy
UniECS in the e-commerce search platform of Kuaishou Inc. across two search
scenarios, achieving notable improvements in Click-Through Rate (+2.74\%) and
Revenue (+8.33\%). The comprehensive evaluation demonstrates the effectiveness
of our approach in both experimental and real-world settings. Corresponding
codes, models and datasets will be made publicly available at
https://github.com/qzp2018/UniECS.
Ссылки и действия
Дополнительные ресурсы: