Train Once, Answer All: Many Pretraining Experiments for the Cost of One

2509.23383v1 cs.CL, cs.AI, cs.LG 2025-10-01

Авторы:

Sebastian Bordt, Martin Pawelczyk

Резюме на русском

## Контекст Одна из основных проблем в исследованиях связанных с большими языковыми моделями (LLMs) — высокая стоимость подготовительных экспериментов. Изучение обучения, разума, меморизации и других аспектов моделей требует постоянного увеличения размера данных и вычислительных мощностей. Это приводит к ограничению в технических возможностях и невозможности проводить многочисленные эксперименты на одной модели. В этой работе предлагается решение этой проблемы за счет модификации подготовительного процесса. Вместо того чтобы проводить каждый эксперимент отдельно, авторы предлагают выполнять несколько экспериментов сразу в одном процессе обучения. Эта подход позволит экономить ресурсы, увеличить эффективность исследований и расширить широкость теоретических запросов. ## Метод Методология статьи основывается на применении нескольких подготовительных экспериментов в рамках одного процесса обучения большой языковой модели. Авторы используют модель с 1,5 миллиардом параметров, обученную на 210 миллиардов токенов. Они реализовали 10 различных экспериментов, включая исследования загрязнения данными, управления пометой, аккредитования знаний и другие. В процессе обучения были разработаны специальные механизмы для управления данными и адаптации модели во время обучения. Это позволило решать задачи, которые ранее требовали отдельных моделей или отдельных этапов обучения. Архитектура и методы использовались для оценки влияния каждого эксперимента на общую модель и для проверки взаимодействий между экспериментами. ## Результаты В результате использования этого подхода было достигнуто несколько результатов. Сначала, были повторены результаты из предыдущих работ по оценке загрязнения данных, вредоносных данных и моделированию. Затем, были проведены новые эксперименты, такие как исследование культурного воздействия квантовой методики в обучении моделей, а также вклад в математическое моделирование. В результате экспериментов было показано, что влияние множества экспериментов на общую модель минимально. Однако, существуют взаимодействия между экспериментами, которые необходимо протестировать в будущих исследованиях. Также был доказан эффект "одна модель — много экспериментов", что позволяет проводить многочисленные подготовительные тесты без дополнительного расхода на вычислительные мощности. ## Значимость Этот подход имеет значительное значение для области машинного обучения и искусственного интеллекта. Он позволяет значительно снизить затраты на вычислительные мощности, необходимые для подготовительных экспериментов. Это открытое возможности для широкого исполь

Abstract

Recent work has demonstrated that controlled pretraining experiments are a powerful tool for understanding learning, reasoning, and memorization in large language models (LLMs). However, the computational cost of pretraining presents a significant constraint. To overcome this constraint, we propose to conduct multiple pretraining experiments simultaneously during a single training run. We demonstrate the feasibility of this approach by conducting ten experiments during the training of a 1.5B parameter model on 210B tokens. Although we only train a single model, we can replicate the results from multiple previous works on data contamination, poisoning, and memorization. We also conduct novel investigations into knowledge acquisition, mathematical reasoning, and watermarking. For example, we dynamically update the training data until the model acquires a particular piece of knowledge. Remarkably, the influence of the ten experiments on the model's training dynamics and overall performance is minimal. However, interactions between different experiments may act as a potential confounder in our approach. We propose to test for interactions with continual pretraining experiments, finding them to be negligible in our setup. Overall, our findings suggest that performing multiple pretraining experiments in a single training run can enable rigorous scientific experimentation with large models on a compute budget.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Train Once, Answer All: Many Pretraining Experiments for the Cost of One

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация