Benchmarking Information Retrieval Models on Complex Retrieval Tasks
2509.07253v1
cs.IR, cs.AI, cs.CL
2025-09-11
Авторы:
Julian Killingback, Hamed Zamani
Резюме на русском
## Контекст
Современные текстовые задачи, основанные на больших языковых моделях (LLMs), демонстрируют поразительную гибкость и мощь в решении различных сложных задач. Однако реализация эффективных моделей для рекомендаций и поиска текстовых данных еще не достигла такого уровня развития. Особенно трудно справляться с задачами, требующими обработки запросов, содержащих множество частей, ограничений и требований, выраженных на естественном языке. Эти задачи, где запросы естественного языка представляют собой несколько элементов с различными требованиями, являются естественным продолжением простых запросов, которые используются в большинстве существующих рекомендательных систем. Хотя пользователи все чаще ожидают, что системы поиска смогут обрабатывать более конкретные и затруднительные запросы, существуют недостатки в ресурсах для оценки способности моделей работать в таких сложных ситуациях. Для лучшего понимания потенциала существующих моделей и стимулирования развития новых, более мощных моделей, требуется создание широкого набора разнообразных задач, который бы отражал реальные условия применения.
## Метод
Для решения указанных проблем был разработан набор задач, который отражает реальные условия применения моделей поиска. Эти задачи включают не только простые запросы, но и более сложные, содержащие несколько частей и требований в естественном языке. Для оценки способности моделей выполнять такие задачи были выбраны несколько современных моделей, которые были протестированы на различных наборах данных. Кроме того, было рассмотрено влияние различных техник улучшения запросов, в том числе использование технологий БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ для расширения и перефразирования запросов, на качество результатов поиска. Было проведено упорядочение результатов моделей с различными подходами, чтобы сравнить их способности выполнять сложные задачи поиска.
## Результаты
В результате экспериментов было проанализировано качество работы различных моделей на сложных задачах поиска. Было выявлено, что даже лучшие модели способны достичь только среднего качества результатов, с nDCG@10 порядка 0.346 и R@100 около 0.587. Хотя использование технологий расширения и перефразирования запросов на основе БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ может улучшить качество результатов для менее мощных моделей, сильнейшие модели показали снижение качества во всех метриках при применении любых методов перефразирования. Таким образом, даже самые мощные модели сейчас сталкиваются с ограничениями в выполнении сложных задач поиска.
## Значимость
Результаты этого ис
Abstract
Large language models (LLMs) are incredible and versatile tools for
text-based tasks that have enabled countless, previously unimaginable,
applications. Retrieval models, in contrast, have not yet seen such capable
general-purpose models emerge. To achieve this goal, retrieval models must be
able to perform complex retrieval tasks, where queries contain multiple parts,
constraints, or requirements in natural language. These tasks represent a
natural progression from the simple, single-aspect queries that are used in the
vast majority of existing, commonly used evaluation sets. Complex queries
naturally arise as people expect search systems to handle more specific and
often ambitious information requests, as is demonstrated by how people use
LLM-based information systems. Despite the growing desire for retrieval models
to expand their capabilities in complex retrieval tasks, there exist limited
resources to assess the ability of retrieval models on a comprehensive set of
diverse complex tasks. The few resources that do exist feature a limited scope
and often lack realistic settings making it hard to know the true capabilities
of retrieval models on complex real-world retrieval tasks. To address this
shortcoming and spur innovation in next-generation retrieval models, we
construct a diverse and realistic set of complex retrieval tasks and benchmark
a representative set of state-of-the-art retrieval models. Additionally, we
explore the impact of LLM-based query expansion and rewriting on retrieval
quality. Our results show that even the best models struggle to produce
high-quality retrieval results with the highest average nDCG@10 of only 0.346
and R@100 of only 0.587 across all tasks. Although LLM augmentation can help
weaker models, the strongest model has decreased performance across all metrics
with all rewriting techniques.
Ссылки и действия
Дополнительные ресурсы: