Multi-Value-Product Retrieval-Augmented Generation for Industrial Product Attribute Value Identification

2509.23874v1 cs.IR, cs.AI 2025-10-01
Авторы:

Huike Zou, Haiyang Yang, Yindu Su, Liyu Chen, Chengbao Lian, Qingheng Zhang, Shuguang Han, Jufeng Chen

Резюме на русском

## Контекст Продуктная атрибутивная идентификация (PAVI) является ключевым заданием для улучшения поиска, рекомендации и бизнес-аналитики на электронных торговых платформах. Однако, существующие методы PAVI сталкиваются с рядом проблем, включая ошибки скрейпления, невозможность обработки значений атрибутов, отсутствующих в обучающих данных, и недостаточную общую универсальность. Эти ограничения приводят к недостаточной точности и нежелательным последствиям в реальных производственных ситуациях. Мы предлагаем Multi-Value-Product Retrieval-Augmented Generation (MVP-RAG) — новый подход, который объединяет принципы реконструкции, генерации текста и классификации для решения этих проблем. ## Метод MVP-RAG предлагает новый подход к PAVI, определяя его как задачу объединения реконструкции и генерации текста. Запрос выполняется с помощью описания продукта, а кандидаты по атрибутам и продуктам формируются на основе внедренной модели вектора. MVP-RAG включает в себя три этапа: (1) хранение результатов рекурсивного поиска с применением запроса к категории и атрибутам, (2) генерацию значений атрибутов с помощью БПЛА с трансформером, (3) классификацию генерируемых значений с помощью простых моделей. Эта структура позволяет обеспечить высокую точность и универсальность, а также уменьшать последствия недостатка тренировочных данных. ## Результаты Мы провели широкий анализ MVP-RAG на основе реальных промышленных данных. Метод был сравнен с другими лучшими базовыми методами, в том числе с подходом, основанным на классических моделях регрессии и классификации. Результаты показали, что MVP-RAG обеспечивает большую точность в идентификации атрибутов, особенно при работе с нестандартными или новыми значениями. Он также демонстрирует высокую стабильность при работе с большими наборами данных и в условиях несовершенства тренировочных данных. ## Значимость Предлагаемый подход применим в многих областях, включая промышленную аналитику, электронную коммерцию и рекомендательные системы. Он предлагает несколько преимуществ, включая уменьшение ошибок скрейпления, улучшение обработки нестандартных значений, а также увеличение общей универсальности модели. Результаты MVP-RAG подтверждают, что он может значительно улучшить производительность в промышленных ситуациях, где точность и универсальность критически важны. ## Выводы MVP-RAG представляет собой новый подход к PAVI, который объединяет принципы реконструкции, генерации и классификации. Он показал себя эффективнее существующих методов в ряде ключевых ас

Abstract

Identifying attribute values from product profiles is a key task for improving product search, recommendation, and business analytics on e-commerce platforms, which we called Product Attribute Value Identification (PAVI) . However, existing PAVI methods face critical challenges, such as cascading errors, inability to handle out-of-distribution (OOD) attribute values, and lack of generalization capability. To address these limitations, we introduce Multi-Value-Product Retrieval-Augmented Generation (MVP-RAG), combining the strengths of retrieval, generation, and classification paradigms. MVP-RAG defines PAVI as a retrieval-generation task, where the product title description serves as the query, and products and attribute values act as the corpus. It first retrieves similar products of the same category and candidate attribute values, and then generates the standardized attribute values. The key advantages of this work are: (1) the proposal of a multi-level retrieval scheme, with products and attribute values as distinct hierarchical levels in PAVI domain (2) attribute value generation of large language model to significantly alleviate the OOD problem and (3) its successful deployment in a real-world industrial environment. Extensive experimental results demonstrate that MVP-RAG performs better than the state-of-the-art baselines.

Ссылки и действия