Train Once, Answer All: Many Pretraining Experiments for the Cost of One
2509.23383v1
cs.CL, cs.AI, cs.LG
2025-10-01
Авторы:
Sebastian Bordt, Martin Pawelczyk
Резюме на русском
## Контекст
Одна из основных проблем в исследованиях связанных с большими языковыми моделями (LLMs) — высокая стоимость подготовительных экспериментов. Изучение обучения, разума, меморизации и других аспектов моделей требует постоянного увеличения размера данных и вычислительных мощностей. Это приводит к ограничению в технических возможностях и невозможности проводить многочисленные эксперименты на одной модели.
В этой работе предлагается решение этой проблемы за счет модификации подготовительного процесса. Вместо того чтобы проводить каждый эксперимент отдельно, авторы предлагают выполнять несколько экспериментов сразу в одном процессе обучения. Эта подход позволит экономить ресурсы, увеличить эффективность исследований и расширить широкость теоретических запросов.
## Метод
Методология статьи основывается на применении нескольких подготовительных экспериментов в рамках одного процесса обучения большой языковой модели. Авторы используют модель с 1,5 миллиардом параметров, обученную на 210 миллиардов токенов. Они реализовали 10 различных экспериментов, включая исследования загрязнения данными, управления пометой, аккредитования знаний и другие.
В процессе обучения были разработаны специальные механизмы для управления данными и адаптации модели во время обучения. Это позволило решать задачи, которые ранее требовали отдельных моделей или отдельных этапов обучения. Архитектура и методы использовались для оценки влияния каждого эксперимента на общую модель и для проверки взаимодействий между экспериментами.
## Результаты
В результате использования этого подхода было достигнуто несколько результатов. Сначала, были повторены результаты из предыдущих работ по оценке загрязнения данных, вредоносных данных и моделированию. Затем, были проведены новые эксперименты, такие как исследование культурного воздействия квантовой методики в обучении моделей, а также вклад в математическое моделирование.
В результате экспериментов было показано, что влияние множества экспериментов на общую модель минимально. Однако, существуют взаимодействия между экспериментами, которые необходимо протестировать в будущих исследованиях. Также был доказан эффект "одна модель — много экспериментов", что позволяет проводить многочисленные подготовительные тесты без дополнительного расхода на вычислительные мощности.
## Значимость
Этот подход имеет значительное значение для области машинного обучения и искусственного интеллекта. Он позволяет значительно снизить затраты на вычислительные мощности, необходимые для подготовительных экспериментов. Это открытое возможности для широкого исполь
Abstract
Recent work has demonstrated that controlled pretraining experiments are a
powerful tool for understanding learning, reasoning, and memorization in large
language models (LLMs). However, the computational cost of pretraining presents
a significant constraint. To overcome this constraint, we propose to conduct
multiple pretraining experiments simultaneously during a single training run.
We demonstrate the feasibility of this approach by conducting ten experiments
during the training of a 1.5B parameter model on 210B tokens. Although we only
train a single model, we can replicate the results from multiple previous works
on data contamination, poisoning, and memorization. We also conduct novel
investigations into knowledge acquisition, mathematical reasoning, and
watermarking. For example, we dynamically update the training data until the
model acquires a particular piece of knowledge. Remarkably, the influence of
the ten experiments on the model's training dynamics and overall performance is
minimal. However, interactions between different experiments may act as a
potential confounder in our approach. We propose to test for interactions with
continual pretraining experiments, finding them to be negligible in our setup.
Overall, our findings suggest that performing multiple pretraining experiments
in a single training run can enable rigorous scientific experimentation with
large models on a compute budget.
Ссылки и действия
Дополнительные ресурсы: