Thinking Augmented Pre-training
2509.20186v2
cs.CL, cs.LG
2025-09-26
Авторы:
Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei
Резюме на русском
#### Контекст
В последние годы технологии машинного обучения, особенно глубокого обучения, получили широкое применение в различных областях, в том числе в генерации текста, распознавании речи и анализе данных. Однако большие языковые модели (LLM) требуют огромных объемов данных и вычислительных ресурсов для эффективного обучения. Это приводит к значительным затратам времени и ресурсов. Однако доступ к высококачественным данным не всегда возможен, что приводит к ограничениям в процессе обучения. Таким образом, одной из основных проблем является увеличение эффективности используемых данных для обучения. В настоящей работе предлагается решение этой проблемы, основанное на методе Thinking Augmented Pre-training (TPT).
#### Метод
Предложенный метод, Thinking Augmented Pre-Training (TPT), представляет собой новую подходящую методологию для улучшения эффективности обучения больших языковых моделей. Метод TPT расширяет существующий текст, добавляя "thinking trajectories" — шаги рассуждения, которые помогают модели многоступенчато обобщить и понять логику вывода одного токена. Это решение выступает в качестве универсального шаблона, который может быть применен к различным наборам данных и моделям различных размеров.
Техническая архитектура TPT включает в себя несколько этапов:
1. **Автоматическое генерирование шагов рассуждения** с помощью специальных алгоритмов, которые разбивают задачи на малые части и построительно построить логические выводы.
2. **Интеграция этих шагов** в существующий текст в обучающих данных.
3. **Обновление модели** с использованием нового, расширенного набора данных.
Этот подход увеличивает количество обучающих данных и делает высококачественные токены более узнаваемыми для модели.
#### Результаты
Для исследования эффективности TPT были проведены многочисленные эксперименты с разными моделями и наборами данных. Мы рассмотрели обучение на больших объемах данных (до $100$B токенов), включая обучение с ограниченными и богатыми наборами данных. Были также проведены тесты на моделях с разными параметрами — от небольших до больших моделей.
Наши результаты показали, что TPT значительно улучшает эффективность обучения:
- **Увеличение data-efficiency** на 3 раза в сравнении с традиционными методами.
- Улучшение пост-тренировочного результата 3B-параметровой модели на более чем 10% на разных бенчмарках, требующих рассуждений.
Эти результаты подтверждают, что TPT значительно повышает пользу от доступных данных, даже если они не идеально размечены.
#### Значимость
Предложенный подход имеет широкие применения в области машинного обучения, в задачах анализа текста, генерации те
Abstract
This paper introduces a simple and scalable approach to improve the data
efficiency of large language model (LLM) training by augmenting existing text
data with thinking trajectories. The compute for pre-training LLMs has been
growing at an unprecedented rate, while the availability of high-quality data
remains limited. Consequently, maximizing the utility of available data
constitutes a significant research challenge. A primary impediment is that
certain high-quality tokens are difficult to learn given a fixed model
capacity, as the underlying rationale for a single token can be exceptionally
complex and deep. To address this issue, we propose Thinking augmented
Pre-Training (TPT), a universal methodology that augments text with
automatically generated thinking trajectories. Such augmentation effectively
increases the volume of the training data and makes high-quality tokens more
learnable through step-by-step reasoning and decomposition. We apply TPT across
diverse training configurations up to $100$B tokens, encompassing pre-training
with both constrained and abundant data, as well as mid-training from strong
open-source checkpoints. Experimental results indicate that our method
substantially improves the performance of LLMs across various model sizes and
families. Notably, TPT enhances the data efficiency of LLM pre-training by a
factor of $3$. For a $3$B parameter model, it improves the post-training
performance by over $10\%$ on several challenging reasoning benchmarks.
Ссылки и действия
Дополнительные ресурсы: