What Does Your Benchmark Really Measure? A Framework for Robust Inference of AI Capabilities
2509.19590v1
cs.AI, cs.CY, cs.LG
2025-09-26
Авторы:
Nathanael Jo, Ashia Wilson
Резюме на русском
## Контекст
Оценка генерирующих моделей с помощью бенчмарков стала обычной практикой, и их результаты значительно влияют на публичные и научные ожидания от AI. Однако возникают сомнения в надежности таких оценок. Насколько можно доверять полученным показателям? Оценка часто представляется как простая мера, но на самом деле это вывод: выбор бенчмарка подразумевает уже теорию о том, что такое качество и как оно выражается в тестируемой модели. Мы сделали это сделали явным, предлагая формальный фреймворк для оценки на основе теории: начиная с теории качества, разрабатываются методы ее оценки. Этот подход, широко распространенный в области психометрии, до сих пор не является общепринятым в AI-оценке. Мы демонстрируем его применимость, адресовав основную проблему, которая негативно сказывается на надежности: чувствительность к помехам.
## Метод
Мы предлагаем фреймворк, включающий теорию способности, основанную на математической модели, и способы интерпретации результатов бенчмарка в этой теории. Основной аспект — учет неопределенности, вызванной чувствительностью к помехам и ограниченностью данных. Разработана методика, которая принимает во внимание эти факторы, включая адаптивный алгоритм, существенно сокращающий необходимую выборку для достижения заданной точности. Таким образом, мы построили фундамент для более достоверных и надежных оценок AI-способностей через бенчмарки.
## Результаты
Проведенные эксперименты показали, что наш подход существенно улучшает надежность оценок. Использовались различные данные, включая стандартные бенчмарки и синтетические наборы. На основе этого показано, что адаптивный алгоритм значительно сокращает необходимую выборку без потери точности, что является ключевым преимуществом. Это позволяет меньше полагаться на дорогие и времязатратные эксперименты, повышая эффективность и надежность оценок AI-моделей.
## Значимость
Наш фреймворк имеет широкие реализационные перспективы в различных областях, где оценка AI-моделей является критическим аспектом. Например, в области трансляции языков, распознавания речи, изображений и других критически важных технологий. Он обеспечивает более точную интерпретацию результатов, снижает уровень неопределенности, и может использоваться для более целеых и понятных сравнений AI-систем. Это дает возможность повысить доверие к AI-системам, улучшить их внедрение в реальные приложения и сделать оценку более объективной.
## Выводы
Мы представили новый фреймворк для достоверных и надежных оценок AI-моделей через бенчмар
Abstract
Evaluations of generative models on benchmark data are now ubiquitous, and
their outcomes critically shape public and scientific expectations of AI's
capabilities. Yet growing skepticism surrounds their reliability. How can we
know that a reported accuracy genuinely reflects a model's true performance?
Evaluations are often presented as simple measurements, but in reality they are
inferences: to treat benchmark scores as evidence of capability is already to
assume a theory of what capability is and how it manifests in a test. We make
this step explicit by proposing a principled framework for evaluation as
inference: begin from a theory of capability, and then derive methods for
estimating it. This perspective, familiar in fields such as psychometrics, has
not yet become commonplace in AI evaluation. As a proof of concept, we address
a central challenge that undermines reliability: sensitivity to perturbations.
After formulating a model of ability, we introduce methods that infer ability
while accounting for uncertainty from sensitivity and finite samples, including
an adaptive algorithm that significantly reduces sample complexity. Together,
these contributions lay the groundwork for more reliable and trustworthy
estimates of AI capabilities as measured through benchmarks.
Ссылки и действия
Дополнительные ресурсы: