The Role of Vocabularies in Learning Sparse Representations for Ranking
2509.16621v1
cs.IR, cs.CL
2025-09-24
Авторы:
Hiun Kim, Tae Kwan Lee, Taeryun Won
Резюме на русском
#### Контекст
В поисковых системах существует необходимость эффективно искать информацию, сопоставляя запросы с документами. Одним из подходов является Learned Sparse Retrieval (LSR), например, SPLADE, который использует спарсные представления для 1-го этапа соответствия. Несмотря на свои преимущества, существуют ограничения, связанные с возможностями точного представления запросов и документов в спарсе пространстве. В этой области интересны методы, которые улучшают точность и эффективность LSR, в том числе исследования роли вокабуляров в представлении данных.
#### Метод
Мы разработали систему тестирования на основе моделей BERT с выходным вокабуляром размера 100К. Одна модель была инициализирована с помощью метода ESPLADE (Expanded SPLADE), а другая — случайно. Модели были тренированы на реальных сетевых журналах поисковых запросов. Для улучшения баланса между эффективностью и точностью использовались логит-запросы и документы, урезанные до максимального размера. Эксперименты проводились с помощью оценочного набора данных, используя подход BM25 для сравнения.
#### Результаты
Эксперименты показали, что оба модели, ESPLADE и случайная, эффективны при использовании предельного бюджета вычислительных ресурсов по сравнению с оригинальным SPLADE. Однако ESPLADE проявила более высокую эффективность в сравнении с рандомным вокабуляром, не увеличив при этом стоимость вычислений. Это указывает на важность конфигурации вокабуляров для оптимального представления запросов и документов в LSR.
#### Значимость
Результаты имеют практическое значение в области Learned Sparse Retrieval. Они демонстрируют, что выбор размера и весов вокабуляров влияет на точность и эффективность LSR. Вокабуляры не только представляют значения, но и улучшают способность модели сопоставить запросы с документами. Эти находки открывают новые пути для улучшения LSR, сфокусировавшись на вокабулярной конфигурации.
#### Выводы
Основным достижением является то, что размер и предобученные веса вокабуляров играют ключевую роль в формировании представлений для LSR. Будущие исследования будут сфокусированы на точном определении параметров вокабуляров для достижения баланса между эффективностью и точностью в поисковых системах.
Abstract
Learned Sparse Retrieval (LSR) such as SPLADE has growing interest for
effective semantic 1st stage matching while enjoying the efficiency of inverted
indices. A recent work on learning SPLADE models with expanded vocabularies
(ESPLADE) was proposed to represent queries and documents into a sparse space
of custom vocabulary which have different levels of vocabularic granularity.
Within this effort, however, there have not been many studies on the role of
vocabulary in SPLADE models and their relationship to retrieval efficiency and
effectiveness.
To study this, we construct BERT models with 100K-sized output vocabularies,
one initialized with the ESPLADE pretraining method and one initialized
randomly. After finetune on real-world search click logs, we applied logit
score-based queries and documents pruning to max size for further balancing
efficiency. The experimental result in our evaluation set shows that, when
pruning is applied, the two models are effective compared to the 32K-sized
normal SPLADE model in the computational budget under the BM25. And the ESPLADE
models are more effective than the random vocab model, while having a similar
retrieval cost.
The result indicates that the size and pretrained weight of output
vocabularies play the role of configuring the representational specification
for queries, documents, and their interactions in the retrieval engine, beyond
their original meaning and purposes in NLP. These findings can provide a new
room for improvement for LSR by identifying the importance of representational
specification from vocabulary configuration for efficient and effective
retrieval.
Ссылки и действия
Дополнительные ресурсы: