Benchmarking Information Retrieval Models on Complex Retrieval Tasks

2509.07253v1 cs.IR, cs.AI, cs.CL 2025-09-11

Авторы:

Julian Killingback, Hamed Zamani

Резюме на русском

## Контекст Современные текстовые задачи, основанные на больших языковых моделях (LLMs), демонстрируют поразительную гибкость и мощь в решении различных сложных задач. Однако реализация эффективных моделей для рекомендаций и поиска текстовых данных еще не достигла такого уровня развития. Особенно трудно справляться с задачами, требующими обработки запросов, содержащих множество частей, ограничений и требований, выраженных на естественном языке. Эти задачи, где запросы естественного языка представляют собой несколько элементов с различными требованиями, являются естественным продолжением простых запросов, которые используются в большинстве существующих рекомендательных систем. Хотя пользователи все чаще ожидают, что системы поиска смогут обрабатывать более конкретные и затруднительные запросы, существуют недостатки в ресурсах для оценки способности моделей работать в таких сложных ситуациях. Для лучшего понимания потенциала существующих моделей и стимулирования развития новых, более мощных моделей, требуется создание широкого набора разнообразных задач, который бы отражал реальные условия применения. ## Метод Для решения указанных проблем был разработан набор задач, который отражает реальные условия применения моделей поиска. Эти задачи включают не только простые запросы, но и более сложные, содержащие несколько частей и требований в естественном языке. Для оценки способности моделей выполнять такие задачи были выбраны несколько современных моделей, которые были протестированы на различных наборах данных. Кроме того, было рассмотрено влияние различных техник улучшения запросов, в том числе использование технологий БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ для расширения и перефразирования запросов, на качество результатов поиска. Было проведено упорядочение результатов моделей с различными подходами, чтобы сравнить их способности выполнять сложные задачи поиска. ## Результаты В результате экспериментов было проанализировано качество работы различных моделей на сложных задачах поиска. Было выявлено, что даже лучшие модели способны достичь только среднего качества результатов, с nDCG@10 порядка 0.346 и R@100 около 0.587. Хотя использование технологий расширения и перефразирования запросов на основе БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ может улучшить качество результатов для менее мощных моделей, сильнейшие модели показали снижение качества во всех метриках при применении любых методов перефразирования. Таким образом, даже самые мощные модели сейчас сталкиваются с ограничениями в выполнении сложных задач поиска. ## Значимость Результаты этого ис

Abstract

Large language models (LLMs) are incredible and versatile tools for text-based tasks that have enabled countless, previously unimaginable, applications. Retrieval models, in contrast, have not yet seen such capable general-purpose models emerge. To achieve this goal, retrieval models must be able to perform complex retrieval tasks, where queries contain multiple parts, constraints, or requirements in natural language. These tasks represent a natural progression from the simple, single-aspect queries that are used in the vast majority of existing, commonly used evaluation sets. Complex queries naturally arise as people expect search systems to handle more specific and often ambitious information requests, as is demonstrated by how people use LLM-based information systems. Despite the growing desire for retrieval models to expand their capabilities in complex retrieval tasks, there exist limited resources to assess the ability of retrieval models on a comprehensive set of diverse complex tasks. The few resources that do exist feature a limited scope and often lack realistic settings making it hard to know the true capabilities of retrieval models on complex real-world retrieval tasks. To address this shortcoming and spur innovation in next-generation retrieval models, we construct a diverse and realistic set of complex retrieval tasks and benchmark a representative set of state-of-the-art retrieval models. Additionally, we explore the impact of LLM-based query expansion and rewriting on retrieval quality. Our results show that even the best models struggle to produce high-quality retrieval results with the highest average nDCG@10 of only 0.346 and R@100 of only 0.587 across all tasks. Although LLM augmentation can help weaker models, the strongest model has decreased performance across all metrics with all rewriting techniques.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Benchmarking Information Retrieval Models on Complex Retrieval Tasks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Langua...

Generative Query Expansion with Multilingual LLMs for Cross-Lingual Information ...

PaperAsk: A Benchmark for Reliability Evaluation of LLMs in Paper Search and Rea...

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce ...

Pctx: Tokenizing Personalized Context for Generative Recommendation

Навигация