Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation

2508.13144v1 cs.CL, cs.LG 2025-08-20
Авторы:

David Heineman, Valentin Hofmann, Ian Magnusson, Yuling Gu, Noah A. Smith, Hannaneh Hajishirzi, Kyle Lo, Jesse Dodge

Резюме на русском

## Контекст Создание больших языковых моделей является дорогостоящим процессом, включающим в себя многочисленные малых экспериментов, которые обычно проводятся с помощью оценки на больших многозадачных коллекциях подходов. Однако существуют проблемы, связанные с неопределенностью и ненадежностью таких оценок. Это создает мотивацию для разработки более надежных методологий оценки, которые могут помочь в выборе наиболее эффективных моделей. В этой работе рассматривается анализ свойств, которые влияют на надежность бенчмарок, и предлагаются интервенции для создания высококачественных оценочных коллекций. ## Метод Разработка надежной методологии оценки построена на двух ключевых метриках: "сигнал" и "шум". Метрика "сигнал" определяет способность бенчмарка отделять модели высокого качества от низкого качества. Метрика "шум" измеряет чувствительность бенчмарка к случайной вариабельности между отдельными шагами обучения. Основной методологией является анализ этих метрик на 30 различных бенчмарках, используя 375 языковых моделей различных размеров, от 60 миллионов до 32 миллиардов параметров. Эксперименты также включают в себя разработку интервенций, направленных на улучшение сигнала и уменьшение шума. ## Результаты Исследования показали, что бенчмарки с высоким соотношением "сигнал-на шум" демонстрируют более высокую надежность при оценке моделей на малом масштабе. Бенчмарки с меньшим шумом, в свою очередь, имеют меньший ошибки в предсказаниях scaling law. Интервенции, включая переход к метрикам с лучшим соотношением "сигнал-на-шум" (например, perplexity вместо accuracy), а также фильтрацию шумовых подзадач в многозадачных оценках, привели к улучшению надежности и понижению ошибок. Также авторы предложили метод, основанный на среднем значении промежуточных чекпоинтов моделей, что приводит к уменьшению шума и повышению надежности. ## Значимость Результаты этих исследований могут быть применены в разработке и выборе бенчмарков для языковых моделей, чтобы обеспечить более точные и надежные оценки. Улучшение сигнала и уменьшение шума могут привести к более надежным результатам в малых масштабах и уменьшить ошибки в предсказаниях scaling law. Эти результаты имеют потенциал для повышения качества моделей и эффективности их разработки. ## Выводы Основные достижения этого исследования заключаются в том, что сигнал и шум являются ключевыми факторами, влияющими на надежность бенчмарков. Будущие исследования должны фокусироваться на создании новых методологий для улучшения этих метрик и расширение ис

Abstract

Developing large language models is expensive and involves making decisions with small experiments, typically by evaluating on large, multi-task evaluation suites. In this work, we analyze specific properties which make a benchmark more reliable for such decisions, and interventions to design higher-quality evaluation benchmarks. We introduce two key metrics that show differences in current benchmarks: signal, a benchmark's ability to separate better models from worse models, and noise, a benchmark's sensitivity to random variability between training steps. We demonstrate that benchmarks with a better signal-to-noise ratio are more reliable when making decisions at small scale, and those with less noise have lower scaling law prediction error. These results suggest that improving signal or noise will lead to more useful benchmarks, so we introduce three interventions designed to directly affect signal or noise. For example, we propose that switching to a metric that has better signal and noise (e.g., perplexity rather than accuracy) leads to better reliability and improved scaling law error. We also find that filtering noisy subtasks, to improve an aggregate signal-to-noise ratio, leads to more reliable multi-task evaluations. We also find that averaging the output of a model's intermediate checkpoints to reduce noise leads to consistent improvements. We conclude by recommending that those creating new benchmarks, or selecting which existing benchmarks to use, aim for high signal and low noise. We use 30 benchmarks for these experiments, and 375 open-weight language models from 60M to 32B parameters, resulting in a new, publicly available dataset of 900K evaluation benchmark results, totaling 200M instances.

Ссылки и действия