HiD-VAE: Interpretable Generative Recommendation via Hierarchical and Disentangled Semantic IDs
2508.04618v1
cs.IR, cs.AI
2025-08-08
Авторы:
Dengzhao Fang, Jingtong Gao, Chengcheng Zhu, Yu Li, Xiangyu Zhao, Yi Chang
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Рекомендательные системы являются ключевым элементом современных онлайн-платформ, позволяющих пользователям эффективно ориентироваться в обширных каталогах товаров, сервисов или контента. В последнее время генеративные рекомендательные системы привлекли значительное внимание, так как они позволяют объединить традиционные этапы "поиска и ранжирования" в единый конечно-этапный процесс, основанный на динамическом генерировании рекомендаций. Однако существующие генеративные методы сталкиваются с серьёзными ограничениями, связанными с их неконтролируемым токенизационным процессом. Этот процесс приводит к формированию семантических идентификаторов (Semantic IDs), которые имеют две критические проблемы.
Во-первых, семантические ID являются "плоскими" и неинтерпретируемыми, не имеющими чёткой иерархической структуры. Это ограничивает возможность понимания их семантического контекста. Во-вторых, эти идентификаторы подвержены проблеме "пересечения представлений" (ID collisions), которая влечёт за собой неточность и снижение разнообразия рекомендаций. Такие недостатки существенно ограничивают эффективность и качество генеративных рекомендательных моделей.
Для решения этих проблем авторы предлагают HiD-VAE, новый фреймворк, который позволяет получать иерархически десентрализованные (disentangled) представления товаров или контента. Эта модель нацелена на улучшение качества и интерпретируемости семантических ID, что является важной задачей для улучшения точности и разнообразия генеративных рекомендаций.
## ПРЕДЛОЖЕННЫЙ МЕТОД
HiD-VAE представляет собой инновационный фреймворк, основанный на двух основных инновационных компонентах.
Во-первых, HiD-VAE использует **иерархически контролируемый квантизационный процесс** (hierarchically-supervised quantization), который выравнивает дискретные коды с многоуровневыми тегами товаров. Это позволяет получить более униформные и десентрализованные идентификаторы. Особенно важной характеристикой этого процесса является то, что обученные кодобуки (codebooks) могут предсказывать иерархические теги, обеспечивая прозрачный и интерпретируемый семантический путь для каждой рекомендации.
Во-вторых, для борьбы с проблемой "пересечения представлений" HiD-VAE использует **новую функцию потерь "уникальности"** (uniqueness loss), которая напрямую штрафует за перекрытие в латентном пространстве. Это позволяет не только устранить проблему ID collisions, но и повысить разнообразие рекомендаций за счёт более полного использования пространства представлений.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы провели исследования на трёх общедоступных наборах данных, чтобы продемонстрировать эффективность HiD-VAE по сравнению со стандартными методами. Результаты показали, что HiD-VAE превосходит современные методы по ключевым метрикам, таким как точность рекомендаций, разнообразие и интерпретируемость.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
HiD-VAE может быть применён в различных областях, где важна качественная и интерпретируемая рекомендация, таких как электронная коммерция, развлекательные платформы и системы контент-рекомендаций. Благодаря его способности генерировать высококачественные и десентрализованные идентификаторы, HiD-VAE может улучшить качество рекомендаций и повысить доверие пользователей к системам.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
HiD-VAE является важным шагом в развитии генеративных рекомендательных систем, предлагая более точные и интерпретируемые семантические идентификаторы. В будущем этот метод может быть расширен для работы с более сложными иерархиями данных или для интеграции с другими генеративными моделями.
Abstract
Recommender systems are indispensable for helping users navigate the immense
item catalogs of modern online platforms. Recently, generative recommendation
has emerged as a promising paradigm, unifying the conventional
retrieve-and-rank pipeline into an end-to-end model capable of dynamic
generation. However, existing generative methods are fundamentally constrained
by their unsupervised tokenization, which generates semantic IDs suffering from
two critical flaws: (1) they are semantically flat and uninterpretable, lacking
a coherent hierarchy, and (2) they are prone to representation entanglement
(i.e., ``ID collisions''), which harms recommendation accuracy and diversity.
To overcome these limitations, we propose HiD-VAE, a novel framework that
learns hierarchically disentangled item representations through two core
innovations. First, HiD-VAE pioneers a hierarchically-supervised quantization
process that aligns discrete codes with multi-level item tags, yielding more
uniform and disentangled IDs. Crucially, the trained codebooks can predict
hierarchical tags, providing a traceable and interpretable semantic path for
each recommendation. Second, to combat representation entanglement, HiD-VAE
incorporates a novel uniqueness loss that directly penalizes latent space
overlap. This mechanism not only resolves the critical ID collision problem but
also promotes recommendation diversity by ensuring a more comprehensive
utilization of the item representation space. These high-quality, disentangled
IDs provide a powerful foundation for downstream generative models. Extensive
experiments on three public benchmarks validate HiD-VAE's superior performance
against state-of-the-art methods. The code is available at
https://anonymous.4open.science/r/HiD-VAE-84B2.
Ссылки и действия
Дополнительные ресурсы: