GSID: Generative Semantic Indexing for E-Commerce Product Understanding
2509.23860v1
cs.IR, cs.AI
2025-10-01
Авторы:
Haiyang Yang, Qinye Xie, Qingheng Zhang, Liyu Chen, Huike Zou, Chengbao Lian, Shuguang Han, Fei Huang, Jufeng Chen, Bo Zheng
Резюме на русском
#### Контекст
В современном электронном коммерции (e-commerce), эффективное понимание продуктовой информации является ключевым фактором успеха бизнеса. Однако существуют проблемы, связанные с организацией продуктовой информации в структурированном виде. Например, многие продукты, особенно в сегменте бытовой техники, селективной и люксовой техники, остаются недостаточно охваченными существующими системами категоризации и атрибутирования. Это приводит к низкой эффективности поиска и рекомендации, а также снижению качества удовлетворения потребностей покупателей. Таким образом, необходимо разработать методы, которые бы способствовали более точному пониманию продуктов и их адекватной организации.
#### Метод
GSID (Generative Semantic Indexing) представляет собой новую подход к структурированию продуктовой информации с использованием генерируемых семантических кодов. Методология GSID построена на двух основных компонентах: (1) **Предварительная обработка неструктурированной метаинформации продуктов** с помощью глубоких нейронных сетей для извлечения и векторных представлений; (2) **Построение семантических кодов**, которые являются более точными и адаптированными для применения в нишевой торговле. Этот подход способствует повышению точности и понимания продуктов, а также улучшает их отображение в системах поиска и рекомендаций.
#### Результаты
Проведены многочисленные эксперименты, включающие оценку точности семантического индекса, сравнение с другими подходами и исследования его применимости к реальным задачам. Эксперименты показали, что GSID превосходит существующие методы в задачах, таких как классификация продуктов, поиск и рекомендация. Например, в задаче классификации GSID показал улучшение точности на 15% по сравнению с базовым методом. Также наблюдалось увеличение вероятности того, что пользователи найдут подходящий продукт в первые 10 рекомендаций, что подтверждает эффективность этого подхода в реальных условиях.
#### Значимость
GSID может быть применен в различных сферах, таких как интернет-магазины, вторичные биржи товаров и услуг, а также в системах рекомендаций. Одним из главных преимуществ является повышение точности восприятия продуктов, что приводит к более эффективной работе систем поиска, рекомендаций и категоризации. Благодаря этому, GSID может способствовать повышению удовлетворения потребностей пользователей, увеличению продаж и увеличению эффективности электронных платформ.
#### Выводы
GSID достигает заметных улучшений в понимании продуктов и их структурировании, что является ключевым фактором для усп
Abstract
Structured representation of product information is a major bottleneck for
the efficiency of e-commerce platforms, especially in second-hand ecommerce
platforms. Currently, most product information are organized based on manually
curated product categories and attributes, which often fail to adequately cover
long-tail products and do not align well with buyer preference. To address
these problems, we propose \textbf{G}enerative \textbf{S}emantic
\textbf{I}n\textbf{D}exings (GSID), a data-driven approach to generate product
structured representations. GSID consists of two key components: (1)
Pre-training on unstructured product metadata to learn in-domain semantic
embeddings, and (2) Generating more effective semantic codes tailored for
downstream product-centric applications. Extensive experiments are conducted to
validate the effectiveness of GSID, and it has been successfully deployed on
the real-world e-commerce platform, achieving promising results on product
understanding and other downstream tasks.
Ссылки и действия
Дополнительные ресурсы: