Cross-Platform E-Commerce Product Categorization and Recategorization: A Multimodal Hierarchical Classification Approach

2508.20013v1 cs.LG, cs.AI, cs.IR 2025-08-29
Авторы:

Lotte Gross, Rebecca Walter, Nicole Zoppi, Adrien Justus, Alessandro Gambetti, Qiwei Han, Maximilian Kaiser

Резюме на русском

## Контекст Устойчивое развитие электронной коммерции приводит к возникновению новых вызовов, в частности, разнообразию платформ и ограниченности существующих категоризационных систем. Эти проблемы становятся особенно актуальными для международных платформ, где необходимо обеспечить точную и гибкую классификацию товаров. Были выделены два основных аспекта: 1) объединение различных видов данных (текстовые, визуальные, визуально-языковые) для улучшения точности классификации; 2) развитие гибкой системы, которая могла бы адаптироваться к новым категориям и неожиданным структурам. Мотивация заключается в создании универсальной многорежимной методологии, которая могла бы преодолевать устаревшие ограничения и обеспечивать точную категоризацию в различных контекстах. ## Метод Для решения вышеприведенных проблем была разработана многорежимная модель, которая интегрирует текстовые (RoBERTa), визуальные (ViT) и визуально-языковые (CLIP) представления. Функциональность модели основывается на многоуровневой архитектуре, которая использует три основных модальности, а также включает динамическое замаскирование для обеспечения консистентности в категоризации. Для улучшения универсальности и точности была предложена самостоятельная (self-supervised) система по пересортировке товаров, использующая SimCLR, UMAP и кластеризацию. Эта система позволяет обнаруживать новые, более тонкие категории (например, подтипы "Обувь") с высоким степенью чистоты кластеров (86%+). ## Результаты На 271,700 продуктов из 40 международных электронных торговых платформ было проведено значительное количество экспериментов. В результате было достигнуто высокий уровень точности в классификации - 98.59% на уровне дерева категорий. Изучены различные стратегии слияния (early, late, attention-based). Особый успех был показан стратегией late-fusion, которая объединяет CLIP и RoBERTa в рамках модели MLP. Была также проверена модель на точности и универсальности для неизвестных платформ, где была замечена сильная зависимость от количества тренировочных данных. Для расширения возможностей была предложена система по пересортировке товаров, которая обнаружила новые тонкие категории с высокой точностью. ## Значимость Разработанная модель может быть применена в сфере электронной коммерции для улучшения категоризации товаров на различных платформах. Она обладает высокой точностью и гибкостью, что делает её удобной для работы с многообразием данных и категорий. В то же время, модель может быть использована для обнаружения новых товарных категорий, что дает возможность адаптироваться к

Abstract

This study addresses critical industrial challenges in e-commerce product categorization, namely platform heterogeneity and the structural limitations of existing taxonomies, by developing and deploying a multimodal hierarchical classification framework. Using a dataset of 271,700 products from 40 international fashion e-commerce platforms, we integrate textual features (RoBERTa), visual features (ViT), and joint vision--language representations (CLIP). We investigate fusion strategies, including early, late, and attention-based fusion within a hierarchical architecture enhanced by dynamic masking to ensure taxonomic consistency. Results show that CLIP embeddings combined via an MLP-based late-fusion strategy achieve the highest hierarchical F1 (98.59\%), outperforming unimodal baselines. To address shallow or inconsistent categories, we further introduce a self-supervised ``product recategorization'' pipeline using SimCLR, UMAP, and cascade clustering, which discovered new, fine-grained categories (e.g., subtypes of ``Shoes'') with cluster purities above 86\%. Cross-platform experiments reveal a deployment-relevant trade-off: complex late-fusion methods maximize accuracy with diverse training data, while simpler early-fusion methods generalize more effectively to unseen platforms. Finally, we demonstrate the framework's industrial scalability through deployment in EURWEB's commercial transaction intelligence platform via a two-stage inference pipeline, combining a lightweight RoBERTa stage with a GPU--accelerated multimodal stage to balance cost and accuracy.

Ссылки и действия