Purely Semantic Indexing for LLM-based Generative Recommendation and Retrieval

2509.16446v1 cs.IR, cs.CL 2025-09-24

Авторы:

Ruohan Zhang, Jiacheng Li, Julian McAuley, Yupeng Hou

Резюме на русском

## Контекст Одним из ключевых средств для повышения эффективности генерируемых рекомендательных систем является использование semantic identifiers (IDs), позволяющих адаптировать большие языковые модели для рекомендаций и поиска. Несмотря на позитивные результаты, существующие методы страдают от проблемы semantic ID conflicts, когда семантически близкие документы или элементы получают одинаковые идентификаторы. Чтобы устранить это несоответствие, ранее применялись неэффективные методы, такие как добавление несемантичных токенов, что приводило к ненужным расширениям поискового пространства и ухудшению качества рекомендаций. Мы рассматриваем стратегию purely semantic indexing, которая позволяет устранить конфликты и сохранить семантический смысл при идентификации документов. ## Метод Мы предлагаем метод purely semantic indexing, который позволяет устранить конфликты в semantic IDs с помощью новых моделей. Наши алгоритмы — exhaustive candidate matching (ECM) и recursive residual searching (RRS) — работают с большими выборками документов и моделями, не требуя дополнительных несемантичных токенов. Эти методы используют расширенные вычисления семантических характеристик документов, чтобы сгенерировать уникальные и семантически близкие идентификаторы. Мы также расширяем их возможности, используя модели семантического поиска, чтобы обеспечить эффективность и точность в рекомендациях. ## Результаты Мы проверили эффективность наших методов на данных серьезных пользовательских запросов в следующих областях: системы рекомендаций, поиск продуктов и источников документов. В экспериментах мы сравнивали наши результаты с классическими методами, особое внимание уделяя улучшению показателей в ситуациях cold start, когда рекомендации необходимо давать на основе относительно небольших данных. Эксперименты показали, что our approach significantly improves both overall and cold-start performance, что является свидетельством эффективности и надежности нашего подхода. ## Значимость Предлагаемый подход может быть применен в различных сферах, включая рекомендательные системы, поисковые системы и анализ документов. Он обеспечивает точнее и эффективнее рекомендаций, уменьшает поисковое пространство и повышает качество решений в сложных задачах. Этот подход также может повысить производительность моделей языкового моделирования, обеспечивая лучшую уникальность и семантическую точность в генерируемых данных. ## Выводы Мы представляем новую форму semantic indexing, которая устраняет конфликты в semantic IDs и повышает качество рекомендаций в сложных задачах. Наши результаты показывают, что эти методы эффективны в различных сценариях, в том числе в cold-start ситуациях. Мы планируем продолжить работу над усовершенствованием этой технологии, в том числе расширением ее применения к другим типам моделей и сложным зада

Abstract

Semantic identifiers (IDs) have proven effective in adapting large language models for generative recommendation and retrieval. However, existing methods often suffer from semantic ID conflicts, where semantically similar documents (or items) are assigned identical IDs. A common strategy to avoid conflicts is to append a non-semantic token to distinguish them, which introduces randomness and expands the search space, therefore hurting performance. In this paper, we propose purely semantic indexing to generate unique, semantic-preserving IDs without appending non-semantic tokens. We enable unique ID assignment by relaxing the strict nearest-centroid selection and introduce two model-agnostic algorithms: exhaustive candidate matching (ECM) and recursive residual searching (RRS). Extensive experiments on sequential recommendation, product search, and document retrieval tasks demonstrate that our methods improve both overall and cold-start performance, highlighting the effectiveness of ensuring ID uniqueness.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Purely Semantic Indexing for LLM-based Generative Recommendation and Retrieval

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Breaking It Down: Domain-Aware Semantic Segmentation for Retrieval Augmented Gen...

QueryGym: A Toolkit for Reproducible LLM-Based Query Reformulation

Music Recommendation with Large Language Models: Challenges, Opportunities, and ...

CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Shor...

BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives

Навигация