How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models

2508.16757v1 cs.CL, cs.IR 2025-08-27

Авторы:

Abdelrahman Abdallah, Bhawna Piryani, Jamshid Mozafari, Mohammed Ali, Adam Jatowt

Резюме на русском

## Контекст Поиск информации (information retrieval, IR) является ключевым заданием в области крупномасштабных текстовых данных. Одним из важных аспектов IR является **reranking** — процесс сортировки результатов поиска по релевантности. Несмотря на развитие технологий, существуют проблемы, такие как ограниченная общезначимость результатов, особенно при работе с неизвестными или непредсказуемыми запросами. Недавние успехи в области больших языковых моделей (LLM — Large Language Models) потенциально могут решить эти проблемы, но имеют ограничения в скорости и эффективности. В статье авторы проводят систематический эмпирический анализ существующих методов reranking, включая LLM-based, lightweight и zero-shot подходы, чтобы определить их эффективность и ограничения. ## Метод Для анализа использованы 22 метода reranking, включая 40 вариантов на основе различных языковых моделей (LLM). Эксперименты проводились на трех стандартных бенчмарках: TREC DL19, DL20 и BEIR. Для оценки общей и новой релевантности запросов использовался новый тестовый набор данных. Авторы также проводили эмпирический анализ, изучая влияние гипотез о неодинаковой скорости обучения, архитектуре моделей и их эффективности. ## Результаты Эксперименты показали, что LLM-based rerankers показывают значительное превосходство на знакомых запросах, но их результаты на новых запросах значительно ухудшаются. Lightweight модели, несмотря на меньшую скорость, показывают высокую эффективность в работе с неизвестными запросами. Анализ показал, что многие новые запросы требуют новых решений, так как существующие модели не достаточно гибки в обработке неизвестных случаев. ## Значимость Результаты имеют большое значение для развития reranking-систем. Они могут быть применены в различных областях, таких как поисковые системы, мобильные приложения, искусственный интеллект в различных приложениях. Лайтвэйт-модели могут стать альтернативой LLM-based, предоставляя эффективность при новых запросах. Ограничения существующих методов могут стать мотивацией для развития новых подходов. ## Выводы LLM-based rerankers демонстрируют высокую эффективность на знакомых запросах, но страдают от ограниченной общей релевантности на новых запросах. Lightweight-модели, несмотря на меньшую скорость, могут предоставить более гибкую и эффективную альтернативу. Будущие исследования должны сосредоточиться на развитии гибких моделей, которые могут более эффективно обрабатывать неизвестные запросы.

Abstract

In this work, we present a systematic and comprehensive empirical evaluation of state-of-the-art reranking methods, encompassing large language model (LLM)-based, lightweight contextual, and zero-shot approaches, with respect to their performance in information retrieval tasks. We evaluate in total 22 methods, including 40 variants (depending on used LLM) across several established benchmarks, including TREC DL19, DL20, and BEIR, as well as a novel dataset designed to test queries unseen by pretrained models. Our primary goal is to determine, through controlled and fair comparisons, whether a performance disparity exists between LLM-based rerankers and their lightweight counterparts, particularly on novel queries, and to elucidate the underlying causes of any observed differences. To disentangle confounding factors, we analyze the effects of training data overlap, model architecture, and computational efficiency on reranking performance. Our findings indicate that while LLM-based rerankers demonstrate superior performance on familiar queries, their generalization ability to novel queries varies, with lightweight models offering comparable efficiency. We further identify that the novelty of queries significantly impacts reranking effectiveness, highlighting limitations in existing approaches. https://github.com/DataScienceUIBK/llm-reranking-generalization-study

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

AR-Med: Automated Relevance Enhancement in Medical Search via LLM-Driven Informa...

Mitigating the Threshold Priming Effect in Large Language Model-Based Relevance ...

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

Towards Unification of Hallucination Detection and Fact Verification for Large L...

Навигация