EcomMMMU: Strategic Utilization of Visuals for Robust Multimodal E-Commerce Models
2508.15721v1
cs.CL, cs.AI
2025-08-23
Авторы:
Xinyi Ling, Hanwen Du, Zhihui Zhu, Xia Ning
Резюме на русском
#### Контекст
E-commerce платформы полны мультимодальных данных, включая различные изображения, описывающие товары. Однако возникает важный вопрос: всегда ли изображения улучшают понимание товаров, или могут ли они, в некоторых случаях, привести к ненужной разнообразию или ухудшению результатов? Настоящие данные, используемые в исследованиях, часто ограничиваются небольшим размером или простым дизайном, что снижает возможность систематического анализа этой проблемы. Чтобы закрыть этот пробел, мы предлагаем EcomMMMU — большой датасет для мультимодального понимания в e-commerce, содержащий 406 190 примеров и 8 989 510 изображений. Он предоставляет данные в формате visual-language с восьми основными задачами и специальным подходом VSS для оценки способности мультимодальных больших языковых моделей (MLLMs) использовать визуальные данные. Наши исследования показали, что изображения товаров не всегда улучшают результаты и могут даже снижать производительность, что указывает на сложности, которые MLLMs испытывают при использовании визуальных данных в e-commerce.
#### Метод
Мы вводим SUMEI — метод, основанный на выводе, который стратегически использует несколько изображений для товарных задач. SUMEI включает в себя этап предсказания визуальной полезности, чтобы определить, какие изображения являются эффективными для задачи. Этот подход позволяет воздействовать только на самые полезные данные, уменьшая влияние мультимодальных данных, которые могут негативно сказаться на результаты. Использование SUMEI включает простую архитектуру с несколькими моделями, которые обучаются одновременно на визуальных и текстовых данных. SUMEI также основывается на том, чтобы оптимизировать доступ к изображениям в течение рабочего процесса, чтобы увеличить эффективность и уменьшить время обработки.
#### Результаты
Мы проводили ряд экспериментов для оценки SUMEI на EcomMMMU. Для этого мы использовали визуальные и текстовые данные, оценивая производительность на восьми задачах. Результаты показали, что SUMEI существенно улучшает производительность в сравнении с другими методами, особенно при работе с комплексными продуктами, где визуальные данные часто являются ключевым фактором. Мы также проверили SUMEI на различных подмножествах данных, в том числе на VSS, и показали, что SUMEI демонстрирует устойчивость и высокую точность. Эти результаты подтвердят, что SUMEI является продвинутым подходом для эффективного использования визуальных данных в e-commerce.
#### Значимость
EcomMMMU и SUMEI имеют широкое применение в области e-commerce, где мультимодальные данные играют ключевую роль. SUMEI может быть применен для
Abstract
E-commerce platforms are rich in multimodal data, featuring a variety of
images that depict product details. However, this raises an important question:
do these images always enhance product understanding, or can they sometimes
introduce redundancy or degrade performance? Existing datasets are limited in
both scale and design, making it difficult to systematically examine this
question. To this end, we introduce EcomMMMU, an e-commerce multimodal
multitask understanding dataset with 406,190 samples and 8,989,510 images.
EcomMMMU is comprised of multi-image visual-language data designed with 8
essential tasks and a specialized VSS subset to benchmark the capability of
multimodal large language models (MLLMs) to effectively utilize visual content.
Analysis on EcomMMMU reveals that product images do not consistently improve
performance and can, in some cases, degrade it. This indicates that MLLMs may
struggle to effectively leverage rich visual content for e-commerce tasks.
Building on these insights, we propose SUMEI, a data-driven method that
strategically utilizes multiple images via predicting visual utilities before
using them for downstream tasks. Comprehensive experiments demonstrate the
effectiveness and robustness of SUMEI. The data and code are available through
https://anonymous.4open.science/r/submission25.
Ссылки и действия
Дополнительные ресурсы: