Reliable Evaluation Protocol for Low-Precision Retrieval

2508.03306v2 cs.IR, cs.AI, cs.CL 2025-08-09

Авторы:

Kisu Yang, Yoonna Jang, Hwanseok Jang, Kenneth Choi, Isabelle Augenstein, Heuiseok Lim

Резюме на русском

В статье предлагается Reliable Evaluation Protocol for Low-Precision Retrieval, решающий проблему нестабильности оценочных метрик при использовании низкой числовой точности в системах восстановления информации. Уменьшение точности позволяет эффективно использовать ресурсы, но приводит к связыванию элементов с одинаковым скором, что нарушает надежность оценки. Решением является двухэтапный подход: High-Precision Scoring (HPS), который задействует высокую точность только на этапе подсчета релевантности, и Tie-aware Retention Metrics (TRM), определяющий квантильные характеристики релевантности для точного определения результатов. Эксперименты показали, что HPS значительно уменьшает нестабильность, а TRM точно восстанавливает метрики рейтинга. Этот подход обеспечивает устойчивую и достоверную оценку релевантности в системах с низкой точностью.

Abstract

Lowering the numerical precision of model parameters and computations is widely adopted to improve the efficiency of retrieval systems. However, when computing relevance scores between the query and documents in low-precision, we observe spurious ties due to the reduced granularity. This introduces high variability in the results based on tie resolution, making the evaluation less reliable. To address this, we propose a more robust retrieval evaluation protocol designed to reduce score variation. It consists of: (1) High-Precision Scoring (HPS), which upcasts the final scoring step to higher precision to resolve tied candidates with minimal computational cost; and (2) Tie-aware Retrieval Metrics (TRM), which report expected scores, range, and bias to quantify order uncertainty of tied candidates. Our experiments test multiple models with three scoring functions on two retrieval datasets to demonstrate that HPS dramatically reduces tie-induced instability, and TRM accurately recovers expected metric values. This combination enables a more consistent and reliable evaluation system for lower-precision retrievals.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Reliable Evaluation Protocol for Low-Precision Retrieval

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Langua...

Generative Query Expansion with Multilingual LLMs for Cross-Lingual Information ...

PaperAsk: A Benchmark for Reliability Evaluation of LLMs in Paper Search and Rea...

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce ...

Pctx: Tokenizing Personalized Context for Generative Recommendation

Навигация