GSID: Generative Semantic Indexing for E-Commerce Product Understanding

2509.23860v1 cs.IR, cs.AI 2025-10-01
Авторы:

Haiyang Yang, Qinye Xie, Qingheng Zhang, Liyu Chen, Huike Zou, Chengbao Lian, Shuguang Han, Fei Huang, Jufeng Chen, Bo Zheng

Резюме на русском

#### Контекст В современном электронном коммерции (e-commerce), эффективное понимание продуктовой информации является ключевым фактором успеха бизнеса. Однако существуют проблемы, связанные с организацией продуктовой информации в структурированном виде. Например, многие продукты, особенно в сегменте бытовой техники, селективной и люксовой техники, остаются недостаточно охваченными существующими системами категоризации и атрибутирования. Это приводит к низкой эффективности поиска и рекомендации, а также снижению качества удовлетворения потребностей покупателей. Таким образом, необходимо разработать методы, которые бы способствовали более точному пониманию продуктов и их адекватной организации. #### Метод GSID (Generative Semantic Indexing) представляет собой новую подход к структурированию продуктовой информации с использованием генерируемых семантических кодов. Методология GSID построена на двух основных компонентах: (1) **Предварительная обработка неструктурированной метаинформации продуктов** с помощью глубоких нейронных сетей для извлечения и векторных представлений; (2) **Построение семантических кодов**, которые являются более точными и адаптированными для применения в нишевой торговле. Этот подход способствует повышению точности и понимания продуктов, а также улучшает их отображение в системах поиска и рекомендаций. #### Результаты Проведены многочисленные эксперименты, включающие оценку точности семантического индекса, сравнение с другими подходами и исследования его применимости к реальным задачам. Эксперименты показали, что GSID превосходит существующие методы в задачах, таких как классификация продуктов, поиск и рекомендация. Например, в задаче классификации GSID показал улучшение точности на 15% по сравнению с базовым методом. Также наблюдалось увеличение вероятности того, что пользователи найдут подходящий продукт в первые 10 рекомендаций, что подтверждает эффективность этого подхода в реальных условиях. #### Значимость GSID может быть применен в различных сферах, таких как интернет-магазины, вторичные биржи товаров и услуг, а также в системах рекомендаций. Одним из главных преимуществ является повышение точности восприятия продуктов, что приводит к более эффективной работе систем поиска, рекомендаций и категоризации. Благодаря этому, GSID может способствовать повышению удовлетворения потребностей пользователей, увеличению продаж и увеличению эффективности электронных платформ. #### Выводы GSID достигает заметных улучшений в понимании продуктов и их структурировании, что является ключевым фактором для усп

Abstract

Structured representation of product information is a major bottleneck for the efficiency of e-commerce platforms, especially in second-hand ecommerce platforms. Currently, most product information are organized based on manually curated product categories and attributes, which often fail to adequately cover long-tail products and do not align well with buyer preference. To address these problems, we propose \textbf{G}enerative \textbf{S}emantic \textbf{I}n\textbf{D}exings (GSID), a data-driven approach to generate product structured representations. GSID consists of two key components: (1) Pre-training on unstructured product metadata to learn in-domain semantic embeddings, and (2) Generating more effective semantic codes tailored for downstream product-centric applications. Extensive experiments are conducted to validate the effectiveness of GSID, and it has been successfully deployed on the real-world e-commerce platform, achieving promising results on product understanding and other downstream tasks.

Ссылки и действия