Equip Pre-ranking with Target Attention by Residual Quantization
2509.16931v2
cs.IR, cs.AI, cs.LG, I.2.0; I.5.0; I.7.0
2025-09-25
Авторы:
Yutong Li, Yu Zhu, Yichen Qiao, Ziyu Guan, Lv Shao, Tong Liu, Bo Zheng
Резюме на русском
## Контекст
Одна из основных задач промышленных систем рекомендаций — достичь баланса между эффективностью и эффективностью в стадии предварительного ранжирования (pre-ranking). Эффективные модели, такие как Target Attention (TA), обладают высокой мощностью по взаимодействию признаков, но их высокая сложность вычислений делает их неприменимыми для использования в предварительном ранжировании, где требуется максимальная эффективность. Традиционно, в этой стадии применяются простые модели на основе векторного произведения, что приводит к ухудшению качества рекомендаций. Эта проблема является значимой более-менее всеми промышленными системами рекомендаций, которым необходимо обеспечить высокую скорость работы, не ущербив качеству рекомендаций. Целью нашей работы является разработка метода, который сможет эффективно применяться в предварительном ранжировании, сочетая высокую точность с низкой сложностью.
## Метод
Мы предлагаем TARQ (Target Attention with Residual Quantization) — новую архитектуру для предварительного ранжирования, которая призвана приблизить модель предварительного ранжирования к Target Attention. Так как TARQ основан на квантовании резидентного признака (residual quantization), он позволяет уменьшить вычислительные затраты, не теряя в качестве. Идея архитектуры заключается в следующем: мы используем компоненты Target Attention в качестве основной модели, но заменяем части ее вычислений на эффективные методы квантования, чтобы оптимизировать производительность. Эта техника позволяет ускорить процесс ранжирования без ущерба для точности рекомендаций.
## Результаты
Мы провели ряд экспериментов на больших датасетах, включая реальные данные сервиса Taobao. Наши результаты показывают, что TARQ значительно превосходит традиционные модели в предварительном ранжировании по метрикам качества, таким как AUC (Area Under Curve) и Precision@N. Особенно значительные улучшения были замечены на больших датасетах, где требуется высокая скорость работы. Более того, в рамках больших онлайн-экспериментов A/B-тестирования в системе Taobao мы получили увеличение в рентабельности и удовлетворенности пользователей в результате развертывания TARQ.
## Значимость
Предлагаемый метод может быть применен в широком кругу промышленных рекомендательных систем, где необходимо повысить точность рекомендаций при ограниченных вычислительных ресурсах. Одним из основных преимуществ TARQ является его изящное сочетание точности Target Attention с высокой эффективностью, которое позволяет улучшить качество рекомендаций в рамках требований к скорости работы. Мы ожидаем, что этот подход может иметь будущие применения в других областях, где требуется быстрая эффективная модель для ранжирования.
##
Abstract
The pre-ranking stage in industrial recommendation systems faces a
fundamental conflict between efficiency and effectiveness. While powerful
models like Target Attention (TA) excel at capturing complex feature
interactions in the ranking stage, their high computational cost makes them
infeasible for pre-ranking, which often relies on simplistic vector-product
models. This disparity creates a significant performance bottleneck for the
entire system. To bridge this gap, we propose TARQ, a novel pre-ranking
framework. Inspired by generative models, TARQ's key innovation is to equip
pre-ranking with an architecture approximate to TA by Residual Quantization.
This allows us to bring the modeling power of TA into the latency-critical
pre-ranking stage for the first time, establishing a new state-of-the-art
trade-off between accuracy and efficiency. Extensive offline experiments and
large-scale online A/B tests at Taobao demonstrate TARQ's significant
improvements in ranking performance. Consequently, our model has been fully
deployed in production, serving tens of millions of daily active users and
yielding substantial business improvements.