ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
2508.07050v1
cs.IR, cs.AI, cs.CL, cs.LG
2025-08-13
Авторы:
Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
Резюме на русском
## Контекст
Поиск и сортировка актуальной информации является важной задачей в различных областях, от поисковых систем до рекомендательных систем. Несмотря на успех глубоко обученных моделей, проблемы с недостаточной силой логического моделирования и ограниченным доступом к качественному обучающему данным существуют. Эти проблемы сказываются на качестве результатов поиска, особенно при работе с сложными запросами. Обеспечение сильной логической модели и создание методологии, позволяющей улучшить качество рейтинга, являются целями этого исследования.
## Метод
Разработана модель ReasonRank, которая использует широкомасштабное моделирование слов с помощью Large Language Models (LLM) для выполнения рейтинга. Для повышения модели силами логического моделирования, разработана методика автоматического синтеза тренировочных данных на основе DeepSeek-R. Данные подвергаются фильтрации с помощью системы самоконсистентности, чтобы обеспечить их качество. Далее, применена последовательная постобучениевая методика. В первой стадии используется супервизированное тренирование для выделения шаблонов успешного логического моделирования. Во второй стадии применяется развитие модели через глубокое обучение с подкреплением (RL), где используется многообзорная оценка результатов для повышения рейтинга.
## Результаты
Реализованная модель протестирована на нескольких наборах данных, в том числе BRIGHT. Эксперименты показали, что ReasonRank превосходит существующие модели по метрикам качества рейтинга. На BRIGHT leaderboard ReasonRank достиг рекордного результата 40.6, показав значительное превосходство по сравнению с другими решениями. Благодаря использованию многообзорной оценки, модель достигла лучшего баланса между точностью и скоростью работы.
## Значимость
Предложенная модель ReasonRank устанавливает новый стандарт в области развития логического моделирования в пассаж-рейтинге. Она применима не только в поисковых системах, но и в рекомендательных системах, во временной динамике. Модель отличается низкой задержкой, что делает её привлекательной для реального времени. Будущие исследования будут фокусированы на расширении модели для более сложных сценариев и улучшении её универсальности для различных приложений.
Abstract
Large Language Model (LLM) based listwise ranking has shown superior
performance in many passage ranking tasks. With the development of Large
Reasoning Models, many studies have demonstrated that step-by-step reasoning
during test-time helps improve listwise ranking performance. However, due to
the scarcity of reasoning-intensive training data, existing rerankers perform
poorly in many complex ranking scenarios and the ranking ability of
reasoning-intensive rerankers remains largely underdeveloped. In this paper, we
first propose an automated reasoning-intensive training data synthesis
framework, which sources training queries and passages from diverse domains and
applies DeepSeek-R1 to generate high-quality training labels. A
self-consistency data filtering mechanism is designed to ensure the data
quality. To empower the listwise reranker with strong reasoning ability, we
further propose a two-stage post-training approach, which includes a cold-start
supervised fine-tuning (SFT) stage for reasoning pattern learning and a
reinforcement learning (RL) stage for further ranking ability enhancement.
During the RL stage, based on the nature of listwise ranking, we design a
multi-view ranking reward, which is more effective than a ranking metric-based
reward. Extensive experiments demonstrate that our trained reasoning-intensive
reranker \textbf{ReasonRank} outperforms existing baselines significantly and
also achieves much lower latency than pointwise reranker Rank1. \textbf{Through
further experiments, our ReasonRank has achieved state-of-the-art (SOTA)
performance 40.6 on the BRIGHT
leaderboard\footnote{https://brightbenchmark.github.io/}.} Our codes are
available at https://github.com/8421BCD/ReasonRank.