DeAR: Dual-Stage Document Reranking with Reasoning Agents via LLM Distillation
2508.16998v1
cs.CL, cs.IR
2025-08-27
Авторы:
Abdelrahman Abdallah, Jamshid Mozafari, Bhawna Piryani, Adam Jatowt
Резюме на русском
#### Контекст
Существующие системы рейтинга документов часто сталкиваются с проблемой достижения баланса между точным оцениванием точности каждого документа и обеспечением глобального анализа взаимодействия между документами. Это приводит к потере точности или неэффективности в обработке крупных наборов документов. Большие языковые модели (LLMs) стали новым стандартом в этом процессе, но их использование часто ограничивается предопределенными архитектурами и проблемами с масштабированием. Необходимо разработать гибкую и прозрачную модель, которая могла быть применена в различных сценариях, включая открытую доменную квиз-информацию и новые базы данных.
#### Метод
Мы предлагаем DeAR (Dual-Stage Agent Rerank) — распределенную архитектуру с двух этапами, каждый из которых решает свой собственный класс задач. **Стадия 1** (Dual-Loss Distillation) заключается в том, чтобы использовать модель LLaMA 13B в качестве teacher-модели для обучения модели DeAR-Student 3B или 8B с помощью комбинированных целей точного классификатора (cross-entropy), классификации по рейтингу (RankNet) и адаптации вероятности (KL-divergence). **Стадия 2** (List-Wise Reasoning with Chain-of-Thought) включает в себя LoRA-адаптеры и тренировку модели на 20K GPT-4 ответов с разруливанием последовательности (chain-of-thought), что позволяет системе обеспечить логическую интерпретацию рейтингов документов.
#### Результаты
Мы проверили работу DeAR на 11 задаче библиографического поиска, включая TREC-DL 2019/20, BEIR-датасеты и NovelEval-2306. На TREC-DL 2020 DeAR превысила базовые модели на +5.1 nDCG@5. На NovelEval-2306 она достигла 90.97 nDCG@10, превосходя даже GPT-4 на +3.09. Также DeAR показала отличные результаты в открытом доменном задании на Natural Questions, с Top-1 точностью 54.29%, превосходя MonoT5 и RankGPT. Наблюдения показали, что стратегия двухуровневого распределения обучения (двух loss-функций) обеспечивает стабильность модели и повышает точность в поиске.
#### Значимость
DeAR может применяться в сценариях открытого доменного поиска, в том числе в системах принятия решений, открытой квиз-информации и открытого поиска в Интернете. Основные преимущества: (1) высокая точность благодаря двухэтапному распределенному рассуждению; (2) легкость интеграции в существующие системы; (3) прозрачность решений за счет цепочек рассуждений. Это делает ее привлекательной для реальных систем, где прозрачность и эффективность ключевые.
#### Выводы
Мы продемонстрировали, что DeAR предлагает эффективный и прозрачный подход к рейтинговой системе. Мы планируем продолжить работу по улучшению точности и масштабиро
Abstract
Large Language Models (LLMs) have transformed listwise document reranking by
enabling global reasoning over candidate sets, yet single models often struggle
to balance fine-grained relevance scoring with holistic cross-document
analysis. We propose \textbf{De}ep\textbf{A}gent\textbf{R}ank (\textbf{\DeAR}),
an open-source framework that decouples these tasks through a dual-stage
approach, achieving superior accuracy and interpretability. In \emph{Stage 1},
we distill token-level relevance signals from a frozen 13B LLaMA teacher into a
compact \{3, 8\}B student model using a hybrid of cross-entropy, RankNet, and
KL divergence losses, ensuring robust pointwise scoring. In \emph{Stage 2}, we
attach a second LoRA adapter and fine-tune on 20K GPT-4o-generated
chain-of-thought permutations, enabling listwise reasoning with
natural-language justifications. Evaluated on TREC-DL19/20, eight BEIR
datasets, and NovelEval-2306, \DeAR surpasses open-source baselines by +5.1
nDCG@5 on DL20 and achieves 90.97 nDCG@10 on NovelEval, outperforming GPT-4 by
+3.09. Without fine-tuning on Wikipedia, DeAR also excels in open-domain QA,
achieving 54.29 Top-1 accuracy on Natural Questions, surpassing baselines like
MonoT5, UPR, and RankGPT. Ablations confirm that dual-loss distillation ensures
stable calibration, making \DeAR a highly effective and interpretable solution
for modern reranking systems.\footnote{Dataset and code available at
https://github.com/DataScienceUIBK/DeAR-Reranking.}.
Ссылки и действия
Дополнительные ресурсы: