Look Before you Leap: Estimating LLM Benchmark Scores from Descriptions

2509.20645v1 cs.CL, cs.AI, cs.LG 2025-09-26
Авторы:

Jungsoo Park, Ethan Mendes, Gabriel Stanovsky, Alan Ritter

Резюме на русском

## Контекст В последние годы появились широко используемые технологии, основанные на больших языковых моделях (LLM). Однако оценка прогресса в развитии этих моделей становится все более сложной. Существует обычный цикл: создание бенчмарка, оценка моделей и настроек, затем итеративное улучшение. Однако этот процесс требует времени и ресурсов. Можно ли предсказать результаты этих экспериментов до того, как их запустить? Этот вопрос лежит в основе нашего исследования, направленного на развитие методов **предварительного оценивания результатов** для LLM-бенчмарков. Мы изучаем **текстовое прогнозирование показателей моделей**, то есть оценку результата модели на основе текстового описания задачи и настроек, без доступа к данным. Наша мотивация заключается в упрощении и эффективному использованию ресурсов для оценки новых моделей. ## Метод Для реализации нашей идеи мы разработали **PRECOG** — корпус текстовых пар "описание задачи — показатель результата", специально распределенных по разным задачам, доменам и метрикам. Этот корпус позволяет систематически изучать модели, предсказывающие значения показателей без доступа к данным. Мы также добавили **технические решения**, в том числе **модель с возможностью восстановления**, которая использует данные, не относящиеся к исходным бенчмаркам, для достижения более точного прогноза. Также мы проверяли работу моделей в **"нулевом тесте протечки"** (zero-leakage setting), где прогнозировали результаты на новых бенчмарках и экспериментах, которые еще не были опубликованы. ## Результаты Эксперименты показали, что подход к прогнозированию показателей моделей является **сложным, но возможным**. Мы достигли неплохой точности прогноза с **средним абсолютным отклонением в 8.7** на подмножестве **accuracy** при высокой уверенности. Мы также определили, что **сильные модели логического смысла**, такие как GPT-5, применяют **дополнительные вопросы и итеративный поиск**, что позволяет достичь лучших результатов. Однако открытые модели часто не используют полноценный поиск или проводят недостаточно разнообразный поиск источников. В нашем нулевом тесте протечки GPT-5 с поиском в Интернете по-прежнему достигает **значительных результатов**, даже в том случае, если бенчмарк еще не попал в индекс. ## Значимость Наша работа может быть применена в различных **областях, где необходимо предварительно оценить результаты моделей**, например, при разработке новых бенчмарков, оценке новых моделей или при выборе наиболее эффективных настроек. Эта методика позволяет **сэкономить ресурсы** и **увеличить эффективность исследований**

Abstract

Progress in large language models is constrained by an evaluation bottleneck: build a benchmark, evaluate models and settings, then iterate. We therefore ask a simple question: can we forecast outcomes before running any experiments? We study text-only performance forecasting: estimating a model's score from a redacted task description and intended configuration, with no access to dataset instances. To support systematic study, we curate PRECOG, a corpus of redacted description-performance pairs spanning diverse tasks, domains, and metrics. Experiments show the task is challenging but feasible: models equipped with a retrieval module that excludes source papers achieve moderate prediction performance with well-calibrated uncertainty, reaching mean absolute error as low as 8.7 on the Accuracy subset at high-confidence thresholds. Our analysis indicates that stronger reasoning models engage in diverse, iterative querying, whereas current open-source models lag and often skip retrieval or gather evidence with limited diversity. We further test a zero-leakage setting, forecasting on newly released datasets or experiments before their papers are indexed, where GPT-5 with built-in web search still attains nontrivial prediction accuracy. Overall, our corpus and analyses offer an initial step toward open-ended anticipatory evaluation, supporting difficulty estimation and smarter experiment prioritization.

Ссылки и действия