Look Before you Leap: Estimating LLM Benchmark Scores from Descriptions
2509.20645v1
cs.CL, cs.AI, cs.LG
2025-09-26
Авторы:
Jungsoo Park, Ethan Mendes, Gabriel Stanovsky, Alan Ritter
Резюме на русском
## Контекст
В последние годы появились широко используемые технологии, основанные на больших языковых моделях (LLM). Однако оценка прогресса в развитии этих моделей становится все более сложной. Существует обычный цикл: создание бенчмарка, оценка моделей и настроек, затем итеративное улучшение. Однако этот процесс требует времени и ресурсов. Можно ли предсказать результаты этих экспериментов до того, как их запустить? Этот вопрос лежит в основе нашего исследования, направленного на развитие методов **предварительного оценивания результатов** для LLM-бенчмарков. Мы изучаем **текстовое прогнозирование показателей моделей**, то есть оценку результата модели на основе текстового описания задачи и настроек, без доступа к данным. Наша мотивация заключается в упрощении и эффективному использованию ресурсов для оценки новых моделей.
## Метод
Для реализации нашей идеи мы разработали **PRECOG** — корпус текстовых пар "описание задачи — показатель результата", специально распределенных по разным задачам, доменам и метрикам. Этот корпус позволяет систематически изучать модели, предсказывающие значения показателей без доступа к данным. Мы также добавили **технические решения**, в том числе **модель с возможностью восстановления**, которая использует данные, не относящиеся к исходным бенчмаркам, для достижения более точного прогноза. Также мы проверяли работу моделей в **"нулевом тесте протечки"** (zero-leakage setting), где прогнозировали результаты на новых бенчмарках и экспериментах, которые еще не были опубликованы.
## Результаты
Эксперименты показали, что подход к прогнозированию показателей моделей является **сложным, но возможным**. Мы достигли неплохой точности прогноза с **средним абсолютным отклонением в 8.7** на подмножестве **accuracy** при высокой уверенности. Мы также определили, что **сильные модели логического смысла**, такие как GPT-5, применяют **дополнительные вопросы и итеративный поиск**, что позволяет достичь лучших результатов. Однако открытые модели часто не используют полноценный поиск или проводят недостаточно разнообразный поиск источников. В нашем нулевом тесте протечки GPT-5 с поиском в Интернете по-прежнему достигает **значительных результатов**, даже в том случае, если бенчмарк еще не попал в индекс.
## Значимость
Наша работа может быть применена в различных **областях, где необходимо предварительно оценить результаты моделей**, например, при разработке новых бенчмарков, оценке новых моделей или при выборе наиболее эффективных настроек. Эта методика позволяет **сэкономить ресурсы** и **увеличить эффективность исследований**
Abstract
Progress in large language models is constrained by an evaluation bottleneck:
build a benchmark, evaluate models and settings, then iterate. We therefore ask
a simple question: can we forecast outcomes before running any experiments? We
study text-only performance forecasting: estimating a model's score from a
redacted task description and intended configuration, with no access to dataset
instances. To support systematic study, we curate PRECOG, a corpus of redacted
description-performance pairs spanning diverse tasks, domains, and metrics.
Experiments show the task is challenging but feasible: models equipped with a
retrieval module that excludes source papers achieve moderate prediction
performance with well-calibrated uncertainty, reaching mean absolute error as
low as 8.7 on the Accuracy subset at high-confidence thresholds. Our analysis
indicates that stronger reasoning models engage in diverse, iterative querying,
whereas current open-source models lag and often skip retrieval or gather
evidence with limited diversity. We further test a zero-leakage setting,
forecasting on newly released datasets or experiments before their papers are
indexed, where GPT-5 with built-in web search still attains nontrivial
prediction accuracy. Overall, our corpus and analyses offer an initial step
toward open-ended anticipatory evaluation, supporting difficulty estimation and
smarter experiment prioritization.
Ссылки и действия
Дополнительные ресурсы: