EcomMMMU: Strategic Utilization of Visuals for Robust Multimodal E-Commerce Models

2508.15721v1 cs.CL, cs.AI 2025-08-23

Авторы:

Xinyi Ling, Hanwen Du, Zhihui Zhu, Xia Ning

Резюме на русском

#### Контекст E-commerce платформы полны мультимодальных данных, включая различные изображения, описывающие товары. Однако возникает важный вопрос: всегда ли изображения улучшают понимание товаров, или могут ли они, в некоторых случаях, привести к ненужной разнообразию или ухудшению результатов? Настоящие данные, используемые в исследованиях, часто ограничиваются небольшим размером или простым дизайном, что снижает возможность систематического анализа этой проблемы. Чтобы закрыть этот пробел, мы предлагаем EcomMMMU — большой датасет для мультимодального понимания в e-commerce, содержащий 406 190 примеров и 8 989 510 изображений. Он предоставляет данные в формате visual-language с восьми основными задачами и специальным подходом VSS для оценки способности мультимодальных больших языковых моделей (MLLMs) использовать визуальные данные. Наши исследования показали, что изображения товаров не всегда улучшают результаты и могут даже снижать производительность, что указывает на сложности, которые MLLMs испытывают при использовании визуальных данных в e-commerce. #### Метод Мы вводим SUMEI — метод, основанный на выводе, который стратегически использует несколько изображений для товарных задач. SUMEI включает в себя этап предсказания визуальной полезности, чтобы определить, какие изображения являются эффективными для задачи. Этот подход позволяет воздействовать только на самые полезные данные, уменьшая влияние мультимодальных данных, которые могут негативно сказаться на результаты. Использование SUMEI включает простую архитектуру с несколькими моделями, которые обучаются одновременно на визуальных и текстовых данных. SUMEI также основывается на том, чтобы оптимизировать доступ к изображениям в течение рабочего процесса, чтобы увеличить эффективность и уменьшить время обработки. #### Результаты Мы проводили ряд экспериментов для оценки SUMEI на EcomMMMU. Для этого мы использовали визуальные и текстовые данные, оценивая производительность на восьми задачах. Результаты показали, что SUMEI существенно улучшает производительность в сравнении с другими методами, особенно при работе с комплексными продуктами, где визуальные данные часто являются ключевым фактором. Мы также проверили SUMEI на различных подмножествах данных, в том числе на VSS, и показали, что SUMEI демонстрирует устойчивость и высокую точность. Эти результаты подтвердят, что SUMEI является продвинутым подходом для эффективного использования визуальных данных в e-commerce. #### Значимость EcomMMMU и SUMEI имеют широкое применение в области e-commerce, где мультимодальные данные играют ключевую роль. SUMEI может быть применен для

Abstract

E-commerce platforms are rich in multimodal data, featuring a variety of images that depict product details. However, this raises an important question: do these images always enhance product understanding, or can they sometimes introduce redundancy or degrade performance? Existing datasets are limited in both scale and design, making it difficult to systematically examine this question. To this end, we introduce EcomMMMU, an e-commerce multimodal multitask understanding dataset with 406,190 samples and 8,989,510 images. EcomMMMU is comprised of multi-image visual-language data designed with 8 essential tasks and a specialized VSS subset to benchmark the capability of multimodal large language models (MLLMs) to effectively utilize visual content. Analysis on EcomMMMU reveals that product images do not consistently improve performance and can, in some cases, degrade it. This indicates that MLLMs may struggle to effectively leverage rich visual content for e-commerce tasks. Building on these insights, we propose SUMEI, a data-driven method that strategically utilizes multiple images via predicting visual utilities before using them for downstream tasks. Comprehensive experiments demonstrate the effectiveness and robustness of SUMEI. The data and code are available through https://anonymous.4open.science/r/submission25.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

EcomMMMU: Strategic Utilization of Visuals for Robust Multimodal E-Commerce Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация