Cross-Platform E-Commerce Product Categorization and Recategorization: A Multimodal Hierarchical Classification Approach
2508.20013v1
cs.LG, cs.AI, cs.IR
2025-08-29
Авторы:
Lotte Gross, Rebecca Walter, Nicole Zoppi, Adrien Justus, Alessandro Gambetti, Qiwei Han, Maximilian Kaiser
Резюме на русском
## Контекст
Устойчивое развитие электронной коммерции приводит к возникновению новых вызовов, в частности, разнообразию платформ и ограниченности существующих категоризационных систем. Эти проблемы становятся особенно актуальными для международных платформ, где необходимо обеспечить точную и гибкую классификацию товаров. Были выделены два основных аспекта: 1) объединение различных видов данных (текстовые, визуальные, визуально-языковые) для улучшения точности классификации; 2) развитие гибкой системы, которая могла бы адаптироваться к новым категориям и неожиданным структурам. Мотивация заключается в создании универсальной многорежимной методологии, которая могла бы преодолевать устаревшие ограничения и обеспечивать точную категоризацию в различных контекстах.
## Метод
Для решения вышеприведенных проблем была разработана многорежимная модель, которая интегрирует текстовые (RoBERTa), визуальные (ViT) и визуально-языковые (CLIP) представления. Функциональность модели основывается на многоуровневой архитектуре, которая использует три основных модальности, а также включает динамическое замаскирование для обеспечения консистентности в категоризации. Для улучшения универсальности и точности была предложена самостоятельная (self-supervised) система по пересортировке товаров, использующая SimCLR, UMAP и кластеризацию. Эта система позволяет обнаруживать новые, более тонкие категории (например, подтипы "Обувь") с высоким степенью чистоты кластеров (86%+).
## Результаты
На 271,700 продуктов из 40 международных электронных торговых платформ было проведено значительное количество экспериментов. В результате было достигнуто высокий уровень точности в классификации - 98.59% на уровне дерева категорий. Изучены различные стратегии слияния (early, late, attention-based). Особый успех был показан стратегией late-fusion, которая объединяет CLIP и RoBERTa в рамках модели MLP. Была также проверена модель на точности и универсальности для неизвестных платформ, где была замечена сильная зависимость от количества тренировочных данных. Для расширения возможностей была предложена система по пересортировке товаров, которая обнаружила новые тонкие категории с высокой точностью.
## Значимость
Разработанная модель может быть применена в сфере электронной коммерции для улучшения категоризации товаров на различных платформах. Она обладает высокой точностью и гибкостью, что делает её удобной для работы с многообразием данных и категорий. В то же время, модель может быть использована для обнаружения новых товарных категорий, что дает возможность адаптироваться к
Abstract
This study addresses critical industrial challenges in e-commerce product
categorization, namely platform heterogeneity and the structural limitations of
existing taxonomies, by developing and deploying a multimodal hierarchical
classification framework. Using a dataset of 271,700 products from 40
international fashion e-commerce platforms, we integrate textual features
(RoBERTa), visual features (ViT), and joint vision--language representations
(CLIP). We investigate fusion strategies, including early, late, and
attention-based fusion within a hierarchical architecture enhanced by dynamic
masking to ensure taxonomic consistency. Results show that CLIP embeddings
combined via an MLP-based late-fusion strategy achieve the highest hierarchical
F1 (98.59\%), outperforming unimodal baselines. To address shallow or
inconsistent categories, we further introduce a self-supervised ``product
recategorization'' pipeline using SimCLR, UMAP, and cascade clustering, which
discovered new, fine-grained categories (e.g., subtypes of ``Shoes'') with
cluster purities above 86\%. Cross-platform experiments reveal a
deployment-relevant trade-off: complex late-fusion methods maximize accuracy
with diverse training data, while simpler early-fusion methods generalize more
effectively to unseen platforms. Finally, we demonstrate the framework's
industrial scalability through deployment in EURWEB's commercial transaction
intelligence platform via a two-stage inference pipeline, combining a
lightweight RoBERTa stage with a GPU--accelerated multimodal stage to balance
cost and accuracy.
Ссылки и действия
Дополнительные ресурсы: