ADMIRE-BayesOpt: Accelerated Data MIxture RE-weighting for Language Models with Bayesian Optimization
2508.11551v2
stat.ML, cs.AI, cs.LG
2025-08-19
Авторы:
Shengzhuang Chen, Xu Ouyang, Michael Arthur Leopold Pearce, Thomas Hartvigsen, Jonathan Richard Schwarz
Резюме на русском
## Контекст
Оптимизация смеси данных для обучения больших языковых моделей является ключевым аспектом, значительно влияющим на их эффективность и качество. Несмотря на важность этой задачи, нынешний подход к ней остается традиционным и основывается на руководстве экспертам и методах хитроумного экспериментирования, которые недостаточно надежны и эффективны. Это приводит к значительным затратам времени и ресурсов на эксперименты, а также к опасности переобучения к маломасштабным данным. Данная работа предлагает новый подход к этой проблеме, рассматривая его как задачу оптимизации черного-ящика с использованием байесовской оптимизации.
## Метод
ADMIRE-BayesOpt предлагает представить проблему выбора смеси данных для обучения языковых моделей в качестве задачи последовательного выбора, оптимизирующей баланс между затратами на обучение пробных моделей и показателями полученной смеси. Для этого используется методология нескольких фидбеков в байесовской оптимизации, которая позволяет эффективно комбинировать результаты из множества экспериментов с различными уровнями ресурсов. Архитектура решения включает в себя систему, которая стремится минимизировать затраты на эксперименты, получая наилучшую смесь данных для указанного размера модели и задачи обучения.
## Результаты
Проведенные эксперименты были проведены на моделях размеров от 1 миллиона до 7 миллиардов параметров, включая простые архитектуры и современные модели. Было осуществлено 460 полных циклов обучения и оценки моделей, что составляет более 13 000 часов вычислительных ресурсов на графических процессорах. Результаты показали, что ADMIRE-BayesOpt предоставляет скорость оптимизации лучшей смеси данных, составляющую более 500% по сравнению с базовыми методами. Эта система позволяет эффективно использовать ресурсы и снижать риски переобучения к маломасштабным данным.
## Значимость
Описанное решение может быть применено в различных областях глубокого обучения, где требуется оптимизация многообразия данных для обучения языковых моделей. Особый подход ADMIRE-BayesOpt обеспечивает снижение затрат на ресурсы, увеличивает эффективность и позволяет быстрее достичь результатов. Рассматриваемый подход может иметь значительное влияние на развитие технологий глубокого обучения, уменьшая необходимость в ручном вмешательстве и использовании ресурсов.
## Выводы
Результаты данного исследования показали, что ADMIRE-BayesOpt является эффективным инструментом для оптимизации смеси данных в обучении языковых моделей. Он не только существенно сокращает время и ресурсы, но и позво
Abstract
Determining the optimal data mixture for large language model training
remains a challenging problem with an outsized impact on performance. In
practice, language model developers continue to rely on heuristic exploration
since no learning-based approach has emerged as a reliable solution. In this
work, we propose to view the selection of training data mixtures as a black-box
hyperparameter optimization problem, for which Bayesian Optimization is a
well-established class of appropriate algorithms. Firstly, we cast data mixture
learning as a sequential decision-making problem, in which we aim to find a
suitable trade-off between the computational cost of training exploratory
(proxy-) models and final mixture performance. Secondly, we systematically
explore the properties of transferring mixtures learned at a small scale to
larger-scale experiments, providing insights and highlighting opportunities for
research at a modest scale. By proposing Multi-fidelity Bayesian Optimization
as a suitable method in this common scenario, we introduce a natural framework
to balance experiment cost with model fit, avoiding the risks of overfitting to
smaller scales while minimizing the number of experiments at high cost. We
present results for pre-training and instruction finetuning across models
ranging from 1 million to 7 billion parameters, varying from simple
architectures to state-of-the-art models and benchmarks spanning dozens of
datasets. We demonstrate consistently strong results relative to a wide range
of baselines, resulting inspeed-ups of over 500% in determining the best data
mixture on our largest experiments. In addition, we broaden access to research
by sharing ADMIRE IFT Runs, a dataset of 460 full training & evaluation runs
worth over 13,000 GPU hours, greatly reducing the cost of conducting research
in this area.
Ссылки и действия
Дополнительные ресурсы: