Multi-Value-Product Retrieval-Augmented Generation for Industrial Product Attribute Value Identification
2509.23874v1
cs.IR, cs.AI
2025-10-01
Авторы:
Huike Zou, Haiyang Yang, Yindu Su, Liyu Chen, Chengbao Lian, Qingheng Zhang, Shuguang Han, Jufeng Chen
Резюме на русском
## Контекст
Продуктная атрибутивная идентификация (PAVI) является ключевым заданием для улучшения поиска, рекомендации и бизнес-аналитики на электронных торговых платформах. Однако, существующие методы PAVI сталкиваются с рядом проблем, включая ошибки скрейпления, невозможность обработки значений атрибутов, отсутствующих в обучающих данных, и недостаточную общую универсальность. Эти ограничения приводят к недостаточной точности и нежелательным последствиям в реальных производственных ситуациях. Мы предлагаем Multi-Value-Product Retrieval-Augmented Generation (MVP-RAG) — новый подход, который объединяет принципы реконструкции, генерации текста и классификации для решения этих проблем.
## Метод
MVP-RAG предлагает новый подход к PAVI, определяя его как задачу объединения реконструкции и генерации текста. Запрос выполняется с помощью описания продукта, а кандидаты по атрибутам и продуктам формируются на основе внедренной модели вектора. MVP-RAG включает в себя три этапа: (1) хранение результатов рекурсивного поиска с применением запроса к категории и атрибутам, (2) генерацию значений атрибутов с помощью БПЛА с трансформером, (3) классификацию генерируемых значений с помощью простых моделей. Эта структура позволяет обеспечить высокую точность и универсальность, а также уменьшать последствия недостатка тренировочных данных.
## Результаты
Мы провели широкий анализ MVP-RAG на основе реальных промышленных данных. Метод был сравнен с другими лучшими базовыми методами, в том числе с подходом, основанным на классических моделях регрессии и классификации. Результаты показали, что MVP-RAG обеспечивает большую точность в идентификации атрибутов, особенно при работе с нестандартными или новыми значениями. Он также демонстрирует высокую стабильность при работе с большими наборами данных и в условиях несовершенства тренировочных данных.
## Значимость
Предлагаемый подход применим в многих областях, включая промышленную аналитику, электронную коммерцию и рекомендательные системы. Он предлагает несколько преимуществ, включая уменьшение ошибок скрейпления, улучшение обработки нестандартных значений, а также увеличение общей универсальности модели. Результаты MVP-RAG подтверждают, что он может значительно улучшить производительность в промышленных ситуациях, где точность и универсальность критически важны.
## Выводы
MVP-RAG представляет собой новый подход к PAVI, который объединяет принципы реконструкции, генерации и классификации. Он показал себя эффективнее существующих методов в ряде ключевых ас
Abstract
Identifying attribute values from product profiles is a key task for
improving product search, recommendation, and business analytics on e-commerce
platforms, which we called Product Attribute Value Identification (PAVI) .
However, existing PAVI methods face critical challenges, such as cascading
errors, inability to handle out-of-distribution (OOD) attribute values, and
lack of generalization capability. To address these limitations, we introduce
Multi-Value-Product Retrieval-Augmented Generation (MVP-RAG), combining the
strengths of retrieval, generation, and classification paradigms. MVP-RAG
defines PAVI as a retrieval-generation task, where the product title
description serves as the query, and products and attribute values act as the
corpus. It first retrieves similar products of the same category and candidate
attribute values, and then generates the standardized attribute values. The key
advantages of this work are: (1) the proposal of a multi-level retrieval
scheme, with products and attribute values as distinct hierarchical levels in
PAVI domain (2) attribute value generation of large language model to
significantly alleviate the OOD problem and (3) its successful deployment in a
real-world industrial environment. Extensive experimental results demonstrate
that MVP-RAG performs better than the state-of-the-art baselines.
Ссылки и действия
Дополнительные ресурсы: