SciRerankBench: Benchmarking Rerankers Towards Scientific Retrieval-Augmented Generated LLMs

2508.08742v1 cs.CL, cs.AI 2025-08-14
Авторы:

Haotian Chen, Qingqing Long, Meng Xiao, Xiao Luo, Wei Ju, Chengrui Wang, Xuezhi Wang, Yuanchun Zhou, Hengshu Zhu

Резюме на русском

## Контекст В настоящее время исследования по вопросно-ответной системе на основе научной литературы (Scientific Question Answering, SciQA) находятся в самом активном развитии. Это связано с тем, что высококачественные ответы в области науки являются ключевым фактором для обеспечения новых научных открытий. Одним из наиболее эффективных подходов является использование двухэтапной системы восстановления и рейтинга с помощью генерируемых глубоких нейронных сетей (RAG-LLMs), которая позволяет обеспечить высокую точность в поиске и выдаче знаний. Однако второй этап, а именно система рейтинга (reranker), играет особую роль в склонных к ошибкам научных текстах. Небольшие разницы в терминологии могут привести к существенному снижению качества ответов. Несмотря на прогресс в этой области, существуют значительные пробелы в понимании потенциала и ограничений такой работы, что влечет за собой необходимость в создании специализированного бенчмарка для оценки рейтинговых систем. ## Метод SciRerankBench представляет собой уникальный подход к оценке рейтинговых систем в рамках RAG-LLMs, ориентированный на детальное измерение их производительности в сложных научных сценариях. Методология включает разработку трех типов вопросов-контекстов-ответов (Q-C-A), а именно: 1) контексты с шумом (Noisy Contexts, NC), 2) семантически схожие, но логически не относящиеся контексты (Semantically Similar but Logically Irrelevant Contexts, SSLI) и 3) контрфактические контексты (Counterfactual Contexts, CC). Эти типы были разработаны, чтобы систематически оценить производительность рейтинговых систем по трем ключевым параметрам: выносливости к шуму, разрешению семантической схожести и сохранению фактической точности. Бенчмарк охватывает пять научных областей, при этом проводилась оценка 13 существующих рейтинговых систем на пяти моделях глубокого обучения. ## Результаты Результаты оценки показали, что существующие рейтинговые системы в RAG-LLMs демонстрируют различную эффективность в задачах восстановления и систематической оценке. Такие параметры, как выносливость к шуму и разрешение семантической схожести, оказались критичными для обеспечения точности ответов. Наиболее продвинутые системы показали значительные достижения в отношении решения этих задач, однако существуют существенные ограничения в ситуациях, когда необходимо глубокое пониманио терминов и сохранение фактической точности в ответах. Эти результаты дают возможность выявления наиболее продвинутых методов, а также выделение тех областей, где требуется дополнительный исследовательский подход. ## Значимость SciRerankBench является первым б

Abstract

Scientific literature question answering is a pivotal step towards new scientific discoveries. Recently, \textit{two-stage} retrieval-augmented generated large language models (RAG-LLMs) have shown impressive advancements in this domain. Such a two-stage framework, especially the second stage (reranker), is particularly essential in the scientific domain, where subtle differences in terminology may have a greatly negative impact on the final factual-oriented or knowledge-intensive answers. Despite this significant progress, the potential and limitations of these works remain unexplored. In this work, we present a Scientific Rerank-oriented RAG Benchmark (SciRerankBench), for evaluating rerankers within RAG-LLMs systems, spanning five scientific subjects. To rigorously assess the reranker performance in terms of noise resilience, relevance disambiguation, and factual consistency, we develop three types of question-context-answer (Q-C-A) pairs, i.e., Noisy Contexts (NC), Semantically Similar but Logically Irrelevant Contexts (SSLI), and Counterfactual Contexts (CC). Through systematic evaluation of 13 widely used rerankers on five families of LLMs, we provide detailed insights into their relative strengths and limitations. To the best of our knowledge, SciRerankBench is the first benchmark specifically developed to evaluate rerankers within RAG-LLMs, which provides valuable observations and guidance for their future development.

Ссылки и действия