Reliable Evaluation Protocol for Low-Precision Retrieval
2508.03306v1
cs.IR, cs.AI, cs.CL
2025-08-06
Авторы:
Kisu Yang, Yoonna Jang, Hwanseok Jang, Kenneth Choi, Isabelle Augenstein, Heuiseok Lim
Резюме на русском
В статье рассматривается проблема нестабильности оценки релевантности в низкоточностных системах поискового поиска, вызвана при использовании низкой точности вычислений. Уменьшение точности приводит к появлению случайных совпадений (spurious ties) между запросом и документами, что существенно влияет на результаты оценки. Для решения этой проблемы предложена новая протокол оценки, включающий два ключевых компонента: **High-Precision Scoring (HPS)** — применение высокоточных вычислений на последнем этапе оценки для разрешения случайных совпадений с минимальными затратами вычислений, и **Tie-aware Retrieval Metrics (TRM)** — метрики, которые учитывают вероятность совпадений и позволяют оценить неопределенность в результатах. Эксперименты на двух наборах данных показали, что HPS значительно снижает нестабильность, а TRM точно восстанавливают ожидаемые значения метрик. Объединение этих подходов обеспечивает более надежную и последовательную оценку в системах низкоточностного поиска.
Abstract
Lowering the numerical precision of model parameters and computations is
widely adopted to improve the efficiency of retrieval systems. However, when
computing relevance scores between the query and documents in low-precision, we
observe spurious ties due to the reduced granularity. This introduces high
variability in the results based on tie resolution, making the evaluation less
reliable. To address this, we propose a more robust retrieval evaluation
protocol designed to reduce score variation. It consists of: (1) High-Precision
Scoring (HPS), which upcasts the final scoring step to higher precision to
resolve tied candidates with minimal computational cost; and (2) Tie-aware
Retrieval Metrics (TRM), which report expected scores, range, and bias to
quantify order uncertainty of tied candidates. Our experiments test multiple
models with three scoring functions on two retrieval datasets to demonstrate
that HPS dramatically reduces tie-induced instability, and TRM accurately
recovers expected metric values. This combination enables a more consistent and
reliable evaluation system for lower-precision retrievals.
Ссылки и действия
Дополнительные ресурсы: