Reliable Evaluation Protocol for Low-Precision Retrieval

2508.03306v1 cs.IR, cs.AI, cs.CL 2025-08-06
Авторы:

Kisu Yang, Yoonna Jang, Hwanseok Jang, Kenneth Choi, Isabelle Augenstein, Heuiseok Lim

Резюме на русском

В статье рассматривается проблема нестабильности оценки релевантности в низкоточностных системах поискового поиска, вызвана при использовании низкой точности вычислений. Уменьшение точности приводит к появлению случайных совпадений (spurious ties) между запросом и документами, что существенно влияет на результаты оценки. Для решения этой проблемы предложена новая протокол оценки, включающий два ключевых компонента: **High-Precision Scoring (HPS)** — применение высокоточных вычислений на последнем этапе оценки для разрешения случайных совпадений с минимальными затратами вычислений, и **Tie-aware Retrieval Metrics (TRM)** — метрики, которые учитывают вероятность совпадений и позволяют оценить неопределенность в результатах. Эксперименты на двух наборах данных показали, что HPS значительно снижает нестабильность, а TRM точно восстанавливают ожидаемые значения метрик. Объединение этих подходов обеспечивает более надежную и последовательную оценку в системах низкоточностного поиска.

Abstract

Lowering the numerical precision of model parameters and computations is widely adopted to improve the efficiency of retrieval systems. However, when computing relevance scores between the query and documents in low-precision, we observe spurious ties due to the reduced granularity. This introduces high variability in the results based on tie resolution, making the evaluation less reliable. To address this, we propose a more robust retrieval evaluation protocol designed to reduce score variation. It consists of: (1) High-Precision Scoring (HPS), which upcasts the final scoring step to higher precision to resolve tied candidates with minimal computational cost; and (2) Tie-aware Retrieval Metrics (TRM), which report expected scores, range, and bias to quantify order uncertainty of tied candidates. Our experiments test multiple models with three scoring functions on two retrieval datasets to demonstrate that HPS dramatically reduces tie-induced instability, and TRM accurately recovers expected metric values. This combination enables a more consistent and reliable evaluation system for lower-precision retrievals.

Ссылки и действия