Fluid Language Model Benchmarking

2509.11106v1 cs.CL, cs.AI, cs.LG 2025-09-17
Авторы:

Valentin Hofmann, David Heineman, Ian Magnusson, Kyle Lo, Jesse Dodge, Maarten Sap, Pang Wei Koh, Chun Wang, Hannaneh Hajishirzi, Noah A. Smith

Резюме на русском

## Контекст Language model (LM) benchmarking является ключевым инструментом для оценки моделей естественного языка. Однако существуют несколько проблем, связанных с этим процессом. Оценка моделей часто оказывается дорогостоящей и временем затратной. Бенчмаркинг не всегда эффективен, так как он не всегда точно измеряет желаемые характеристики моделей. Бенчмаркинг может стать менее эффективным из-за ошибок в метках или иззатухания бенчмарка из-за повторного использования. Несмотря на существующие стратегии по устранению этих проблем, они часто адресуются в изолированном порядке, не учитывая широкую картину качества оценки. ## Метод Fluid Benchmarking предлагает новый подход к оценке моделей естественного языка, который обеспечивает улучшение на нескольких уровнях. Основная идея заключается в том, что значимость элементов бенчмарка зависит от уровня модели. Это означает, что оценка должна адаптироваться к каждой модели. Методология Fluid Benchmarking включает в себя использование модели ответа для предсказания результатов. Это позволяет выбирать элементы бенчмарка динамически, аналогично тестированию на компьютере в образовательных целях. В экспериментах, мы сравнивали этот подход с обычным случайным выбором и другими базлавами, основанными на методах теории ответа. ## Результаты Мы проверили Fluid Benchmarking на четырёх аспектах: эффективности, достоверности, вариативности и утомленности. Наши результаты показали, что этот подход превосходит остальные во всемим аспектах. Например, на MMLU, Fluid Benchmarking поленил 50 раз меньше элементов, но получил высокую достоверность и меньшую вариативность. Эти результаты показывают, что динамическая выборка элементов и использование модели ответа сильно улучшают качество оценки моделей. ## Значимость Fluid Benchmarking может быть применен в различных областях, включая образовательные инструменты, классификацию текстов и другие задачи естественного языка. Этот подход улучшает точность и эффективность оценки моделей, а также минимизирует возможные ошибки. Благодаря этому, Fluid Benchmarking может дать новые возможности для развития AI в различных сферах. ## Выводы Наша исследовательская работа показывает, что Fluid Benchmarking является эффективным идентификатором для моделей естественного языка. Мы продемонстрировали, что этот подход превосходит существующие бенчмарки в разных аспектах. Будущие исследования могут расширить этот подход, включив более широкий спектр моделей и задач.

Abstract

Language model (LM) benchmarking faces several challenges: comprehensive evaluations are costly, benchmarks often fail to measure the intended capabilities, and evaluation quality can degrade due to labeling errors and benchmark saturation. Although various strategies have been proposed to mitigate these issues, they tend to address individual aspects in isolation, neglecting broader questions about overall evaluation quality. Here, we introduce Fluid Benchmarking, a new evaluation approach that advances LM benchmarking across multiple dimensions. Inspired by psychometrics, Fluid Benchmarking is based on the insight that the relative value of benchmark items depends on an LM's capability level, suggesting that evaluation should adapt to each LM. Methodologically, Fluid Benchmarking estimates an item response model based on existing LM evaluation results and uses the inferred quantities to select evaluation items dynamically, similar to computerized adaptive testing in education. In our experiments, we compare Fluid Benchmarking against the common practice of random item sampling as well as more sophisticated baselines, including alternative methods grounded in item response theory. We examine four dimensions -- efficiency, validity, variance, and saturation -- and find that Fluid Benchmarking achieves superior performance in all of them (e.g., higher validity and less variance on MMLU with fifty times fewer items). Our analysis shows that the two components of Fluid Benchmarking have distinct effects: item response theory, used to map performance into a latent ability space, increases validity, while dynamic item selection reduces variance. Overall, our results suggest that LM benchmarking can be substantially improved by moving beyond static evaluation.

Ссылки и действия