What Does Your Benchmark Really Measure? A Framework for Robust Inference of AI Capabilities

2509.19590v1 cs.AI, cs.CY, cs.LG 2025-09-26

Авторы:

Nathanael Jo, Ashia Wilson

Резюме на русском

## Контекст Оценка генерирующих моделей с помощью бенчмарков стала обычной практикой, и их результаты значительно влияют на публичные и научные ожидания от AI. Однако возникают сомнения в надежности таких оценок. Насколько можно доверять полученным показателям? Оценка часто представляется как простая мера, но на самом деле это вывод: выбор бенчмарка подразумевает уже теорию о том, что такое качество и как оно выражается в тестируемой модели. Мы сделали это сделали явным, предлагая формальный фреймворк для оценки на основе теории: начиная с теории качества, разрабатываются методы ее оценки. Этот подход, широко распространенный в области психометрии, до сих пор не является общепринятым в AI-оценке. Мы демонстрируем его применимость, адресовав основную проблему, которая негативно сказывается на надежности: чувствительность к помехам. ## Метод Мы предлагаем фреймворк, включающий теорию способности, основанную на математической модели, и способы интерпретации результатов бенчмарка в этой теории. Основной аспект — учет неопределенности, вызванной чувствительностью к помехам и ограниченностью данных. Разработана методика, которая принимает во внимание эти факторы, включая адаптивный алгоритм, существенно сокращающий необходимую выборку для достижения заданной точности. Таким образом, мы построили фундамент для более достоверных и надежных оценок AI-способностей через бенчмарки. ## Результаты Проведенные эксперименты показали, что наш подход существенно улучшает надежность оценок. Использовались различные данные, включая стандартные бенчмарки и синтетические наборы. На основе этого показано, что адаптивный алгоритм значительно сокращает необходимую выборку без потери точности, что является ключевым преимуществом. Это позволяет меньше полагаться на дорогие и времязатратные эксперименты, повышая эффективность и надежность оценок AI-моделей. ## Значимость Наш фреймворк имеет широкие реализационные перспективы в различных областях, где оценка AI-моделей является критическим аспектом. Например, в области трансляции языков, распознавания речи, изображений и других критически важных технологий. Он обеспечивает более точную интерпретацию результатов, снижает уровень неопределенности, и может использоваться для более целеых и понятных сравнений AI-систем. Это дает возможность повысить доверие к AI-системам, улучшить их внедрение в реальные приложения и сделать оценку более объективной. ## Выводы Мы представили новый фреймворк для достоверных и надежных оценок AI-моделей через бенчмар

Abstract

Evaluations of generative models on benchmark data are now ubiquitous, and their outcomes critically shape public and scientific expectations of AI's capabilities. Yet growing skepticism surrounds their reliability. How can we know that a reported accuracy genuinely reflects a model's true performance? Evaluations are often presented as simple measurements, but in reality they are inferences: to treat benchmark scores as evidence of capability is already to assume a theory of what capability is and how it manifests in a test. We make this step explicit by proposing a principled framework for evaluation as inference: begin from a theory of capability, and then derive methods for estimating it. This perspective, familiar in fields such as psychometrics, has not yet become commonplace in AI evaluation. As a proof of concept, we address a central challenge that undermines reliability: sensitivity to perturbations. After formulating a model of ability, we introduce methods that infer ability while accounting for uncertainty from sensitivity and finite samples, including an adaptive algorithm that significantly reduces sample complexity. Together, these contributions lay the groundwork for more reliable and trustworthy estimates of AI capabilities as measured through benchmarks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

What Does Your Benchmark Really Measure? A Framework for Robust Inference of AI Capabilities

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Model Training to Model Raising -- A call to reform AI model training parad...

WELD: A Large-Scale Longitudinal Dataset of Emotional Dynamics for Ubiquitous Af...

A Hybrid Ai Framework For Strategic Patent Portfolio Pruning: Integrating Learni...

Explainable AI for Predicting and Understanding Mathematics Achievement: A Cross...

Evaluating Retrieval-Augmented Generation Strategies for Large Language Models i...

Навигация