Equip Pre-ranking with Target Attention by Residual Quantization

2509.16931v2 cs.IR, cs.AI, cs.LG, I.2.0; I.5.0; I.7.0 2025-09-25

Авторы:

Yutong Li, Yu Zhu, Yichen Qiao, Ziyu Guan, Lv Shao, Tong Liu, Bo Zheng

Резюме на русском

## Контекст Одна из основных задач промышленных систем рекомендаций — достичь баланса между эффективностью и эффективностью в стадии предварительного ранжирования (pre-ranking). Эффективные модели, такие как Target Attention (TA), обладают высокой мощностью по взаимодействию признаков, но их высокая сложность вычислений делает их неприменимыми для использования в предварительном ранжировании, где требуется максимальная эффективность. Традиционно, в этой стадии применяются простые модели на основе векторного произведения, что приводит к ухудшению качества рекомендаций. Эта проблема является значимой более-менее всеми промышленными системами рекомендаций, которым необходимо обеспечить высокую скорость работы, не ущербив качеству рекомендаций. Целью нашей работы является разработка метода, который сможет эффективно применяться в предварительном ранжировании, сочетая высокую точность с низкой сложностью. ## Метод Мы предлагаем TARQ (Target Attention with Residual Quantization) — новую архитектуру для предварительного ранжирования, которая призвана приблизить модель предварительного ранжирования к Target Attention. Так как TARQ основан на квантовании резидентного признака (residual quantization), он позволяет уменьшить вычислительные затраты, не теряя в качестве. Идея архитектуры заключается в следующем: мы используем компоненты Target Attention в качестве основной модели, но заменяем части ее вычислений на эффективные методы квантования, чтобы оптимизировать производительность. Эта техника позволяет ускорить процесс ранжирования без ущерба для точности рекомендаций. ## Результаты Мы провели ряд экспериментов на больших датасетах, включая реальные данные сервиса Taobao. Наши результаты показывают, что TARQ значительно превосходит традиционные модели в предварительном ранжировании по метрикам качества, таким как AUC (Area Under Curve) и Precision@N. Особенно значительные улучшения были замечены на больших датасетах, где требуется высокая скорость работы. Более того, в рамках больших онлайн-экспериментов A/B-тестирования в системе Taobao мы получили увеличение в рентабельности и удовлетворенности пользователей в результате развертывания TARQ. ## Значимость Предлагаемый метод может быть применен в широком кругу промышленных рекомендательных систем, где необходимо повысить точность рекомендаций при ограниченных вычислительных ресурсах. Одним из основных преимуществ TARQ является его изящное сочетание точности Target Attention с высокой эффективностью, которое позволяет улучшить качество рекомендаций в рамках требований к скорости работы. Мы ожидаем, что этот подход может иметь будущие применения в других областях, где требуется быстрая эффективная модель для ранжирования. ##

Abstract

The pre-ranking stage in industrial recommendation systems faces a fundamental conflict between efficiency and effectiveness. While powerful models like Target Attention (TA) excel at capturing complex feature interactions in the ranking stage, their high computational cost makes them infeasible for pre-ranking, which often relies on simplistic vector-product models. This disparity creates a significant performance bottleneck for the entire system. To bridge this gap, we propose TARQ, a novel pre-ranking framework. Inspired by generative models, TARQ's key innovation is to equip pre-ranking with an architecture approximate to TA by Residual Quantization. This allows us to bring the modeling power of TA into the latency-critical pre-ranking stage for the first time, establishing a new state-of-the-art trade-off between accuracy and efficiency. Extensive offline experiments and large-scale online A/B tests at Taobao demonstrate TARQ's significant improvements in ranking performance. Consequently, our model has been fully deployed in production, serving tens of millions of daily active users and yielding substantial business improvements.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Equip Pre-ranking with Target Attention by Residual Quantization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Equip Pre-ranking with Target Attention by Residual Quantization

Навигация