HiD-VAE: Interpretable Generative Recommendation via Hierarchical and Disentangled Semantic IDs

2508.04618v1 cs.IR, cs.AI 2025-08-08
Авторы:

Dengzhao Fang, Jingtong Gao, Chengcheng Zhu, Yu Li, Xiangyu Zhao, Yi Chang

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Рекомендательные системы являются ключевым элементом современных онлайн-платформ, позволяющих пользователям эффективно ориентироваться в обширных каталогах товаров, сервисов или контента. В последнее время генеративные рекомендательные системы привлекли значительное внимание, так как они позволяют объединить традиционные этапы "поиска и ранжирования" в единый конечно-этапный процесс, основанный на динамическом генерировании рекомендаций. Однако существующие генеративные методы сталкиваются с серьёзными ограничениями, связанными с их неконтролируемым токенизационным процессом. Этот процесс приводит к формированию семантических идентификаторов (Semantic IDs), которые имеют две критические проблемы. Во-первых, семантические ID являются "плоскими" и неинтерпретируемыми, не имеющими чёткой иерархической структуры. Это ограничивает возможность понимания их семантического контекста. Во-вторых, эти идентификаторы подвержены проблеме "пересечения представлений" (ID collisions), которая влечёт за собой неточность и снижение разнообразия рекомендаций. Такие недостатки существенно ограничивают эффективность и качество генеративных рекомендательных моделей. Для решения этих проблем авторы предлагают HiD-VAE, новый фреймворк, который позволяет получать иерархически десентрализованные (disentangled) представления товаров или контента. Эта модель нацелена на улучшение качества и интерпретируемости семантических ID, что является важной задачей для улучшения точности и разнообразия генеративных рекомендаций. ## ПРЕДЛОЖЕННЫЙ МЕТОД HiD-VAE представляет собой инновационный фреймворк, основанный на двух основных инновационных компонентах. Во-первых, HiD-VAE использует **иерархически контролируемый квантизационный процесс** (hierarchically-supervised quantization), который выравнивает дискретные коды с многоуровневыми тегами товаров. Это позволяет получить более униформные и десентрализованные идентификаторы. Особенно важной характеристикой этого процесса является то, что обученные кодобуки (codebooks) могут предсказывать иерархические теги, обеспечивая прозрачный и интерпретируемый семантический путь для каждой рекомендации. Во-вторых, для борьбы с проблемой "пересечения представлений" HiD-VAE использует **новую функцию потерь "уникальности"** (uniqueness loss), которая напрямую штрафует за перекрытие в латентном пространстве. Это позволяет не только устранить проблему ID collisions, но и повысить разнообразие рекомендаций за счёт более полного использования пространства представлений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели исследования на трёх общедоступных наборах данных, чтобы продемонстрировать эффективность HiD-VAE по сравнению со стандартными методами. Результаты показали, что HiD-VAE превосходит современные методы по ключевым метрикам, таким как точность рекомендаций, разнообразие и интерпретируемость. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ HiD-VAE может быть применён в различных областях, где важна качественная и интерпретируемая рекомендация, таких как электронная коммерция, развлекательные платформы и системы контент-рекомендаций. Благодаря его способности генерировать высококачественные и десентрализованные идентификаторы, HiD-VAE может улучшить качество рекомендаций и повысить доверие пользователей к системам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ HiD-VAE является важным шагом в развитии генеративных рекомендательных систем, предлагая более точные и интерпретируемые семантические идентификаторы. В будущем этот метод может быть расширен для работы с более сложными иерархиями данных или для интеграции с другими генеративными моделями.

Abstract

Recommender systems are indispensable for helping users navigate the immense item catalogs of modern online platforms. Recently, generative recommendation has emerged as a promising paradigm, unifying the conventional retrieve-and-rank pipeline into an end-to-end model capable of dynamic generation. However, existing generative methods are fundamentally constrained by their unsupervised tokenization, which generates semantic IDs suffering from two critical flaws: (1) they are semantically flat and uninterpretable, lacking a coherent hierarchy, and (2) they are prone to representation entanglement (i.e., ``ID collisions''), which harms recommendation accuracy and diversity. To overcome these limitations, we propose HiD-VAE, a novel framework that learns hierarchically disentangled item representations through two core innovations. First, HiD-VAE pioneers a hierarchically-supervised quantization process that aligns discrete codes with multi-level item tags, yielding more uniform and disentangled IDs. Crucially, the trained codebooks can predict hierarchical tags, providing a traceable and interpretable semantic path for each recommendation. Second, to combat representation entanglement, HiD-VAE incorporates a novel uniqueness loss that directly penalizes latent space overlap. This mechanism not only resolves the critical ID collision problem but also promotes recommendation diversity by ensuring a more comprehensive utilization of the item representation space. These high-quality, disentangled IDs provide a powerful foundation for downstream generative models. Extensive experiments on three public benchmarks validate HiD-VAE's superior performance against state-of-the-art methods. The code is available at https://anonymous.4open.science/r/HiD-VAE-84B2.

Ссылки и действия