Thinking Augmented Pre-training

2509.20186v2 cs.CL, cs.LG 2025-09-26
Авторы:

Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei

Резюме на русском

#### Контекст В последние годы технологии машинного обучения, особенно глубокого обучения, получили широкое применение в различных областях, в том числе в генерации текста, распознавании речи и анализе данных. Однако большие языковые модели (LLM) требуют огромных объемов данных и вычислительных ресурсов для эффективного обучения. Это приводит к значительным затратам времени и ресурсов. Однако доступ к высококачественным данным не всегда возможен, что приводит к ограничениям в процессе обучения. Таким образом, одной из основных проблем является увеличение эффективности используемых данных для обучения. В настоящей работе предлагается решение этой проблемы, основанное на методе Thinking Augmented Pre-training (TPT). #### Метод Предложенный метод, Thinking Augmented Pre-Training (TPT), представляет собой новую подходящую методологию для улучшения эффективности обучения больших языковых моделей. Метод TPT расширяет существующий текст, добавляя "thinking trajectories" — шаги рассуждения, которые помогают модели многоступенчато обобщить и понять логику вывода одного токена. Это решение выступает в качестве универсального шаблона, который может быть применен к различным наборам данных и моделям различных размеров. Техническая архитектура TPT включает в себя несколько этапов: 1. **Автоматическое генерирование шагов рассуждения** с помощью специальных алгоритмов, которые разбивают задачи на малые части и построительно построить логические выводы. 2. **Интеграция этих шагов** в существующий текст в обучающих данных. 3. **Обновление модели** с использованием нового, расширенного набора данных. Этот подход увеличивает количество обучающих данных и делает высококачественные токены более узнаваемыми для модели. #### Результаты Для исследования эффективности TPT были проведены многочисленные эксперименты с разными моделями и наборами данных. Мы рассмотрели обучение на больших объемах данных (до $100$B токенов), включая обучение с ограниченными и богатыми наборами данных. Были также проведены тесты на моделях с разными параметрами — от небольших до больших моделей. Наши результаты показали, что TPT значительно улучшает эффективность обучения: - **Увеличение data-efficiency** на 3 раза в сравнении с традиционными методами. - Улучшение пост-тренировочного результата 3B-параметровой модели на более чем 10% на разных бенчмарках, требующих рассуждений. Эти результаты подтверждают, что TPT значительно повышает пользу от доступных данных, даже если они не идеально размечены. #### Значимость Предложенный подход имеет широкие применения в области машинного обучения, в задачах анализа текста, генерации те

Abstract

This paper introduces a simple and scalable approach to improve the data efficiency of large language model (LLM) training by augmenting existing text data with thinking trajectories. The compute for pre-training LLMs has been growing at an unprecedented rate, while the availability of high-quality data remains limited. Consequently, maximizing the utility of available data constitutes a significant research challenge. A primary impediment is that certain high-quality tokens are difficult to learn given a fixed model capacity, as the underlying rationale for a single token can be exceptionally complex and deep. To address this issue, we propose Thinking augmented Pre-Training (TPT), a universal methodology that augments text with automatically generated thinking trajectories. Such augmentation effectively increases the volume of the training data and makes high-quality tokens more learnable through step-by-step reasoning and decomposition. We apply TPT across diverse training configurations up to $100$B tokens, encompassing pre-training with both constrained and abundant data, as well as mid-training from strong open-source checkpoints. Experimental results indicate that our method substantially improves the performance of LLMs across various model sizes and families. Notably, TPT enhances the data efficiency of LLM pre-training by a factor of $3$. For a $3$B parameter model, it improves the post-training performance by over $10\%$ on several challenging reasoning benchmarks.

Ссылки и действия