Thinking Augmented Pre-training

2509.20186v3 cs.CL, cs.LG 2025-09-29

Авторы:

Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei

Резюме на русском

#### Контекст Модели языка (LLM) широко применяются в различных областях, но их эффективность сильно зависит от качества и объема обучающих данных. Несмотря на то, что доступные данные растут, их качество часто оставляет желать лучшего, и многие токены, особенно высококачественные, остаются сложно научить для любого фиксированного моделирования. Это ограничивает потенциал моделей и требует новых подходов для улучшения их обучения. #### Метод Мы предлагаем Thinking Augmented Pre-Training (TPT), методологию, которая позволяет повысить эффективность обучения с помощью автоматического генерирования "thinking trajectories" — последовательностей логических рассуждений, которые разбивают сложные токены на простые компоненты. TPT работает путем добавления этих траекторий в обучающие данные, расширяя их объем и улучшая качество обучения. Эта методика а UNIVERSAL, включая сценарии с ограниченным и богатым объемом данных, а также сценарии переобучения с открытых моделей. #### Результаты Мы проверяли TPT в различных условиях, включая обучение с $100$B токенов, как с ограниченными, так и с богатыми наборами данных. Мы также применяли его к моделям с разным числом параметров. Эксперименты показали, что TPT повышает эффективность обучения на $3$ раза и повышает пост-обучение на $10\%$ и более на сложных тестах размышления (reasoning benchmarks). Это демонстрирует надежное улучшение качества и эффективности LLM-моделей. #### Значимость TPT может применяться в широком кругу задач, включая обучение с ограниченным объемом данных, переобучение существующих моделей и улучшение обучения с помощью глубокого рассуждения. Это подход не только повышает качество и объем обучения, но и снижает необходимость в постоянном увеличении моделирования. Это имеет потенциал для эффективного использования ресурсов и значительного улучшения возможностей LLM. #### Выводы TPT является простым и эффективным подходом к улучшению LLM-обучения, который позволяет эффективно использовать доступные данные. Будущим исследованиям следует сосредотачиваться на улучшении алгоритмов генерирования траекторий размышления и расширении применений TPT к другим моделям и задачам.

Abstract

This paper introduces a simple and scalable approach to improve the data efficiency of large language model (LLM) training by augmenting existing text data with thinking trajectories. The compute for pre-training LLMs has been growing at an unprecedented rate, while the availability of high-quality data remains limited. Consequently, maximizing the utility of available data constitutes a significant research challenge. A primary impediment is that certain high-quality tokens are difficult to learn given a fixed model capacity, as the underlying rationale for a single token can be exceptionally complex and deep. To address this issue, we propose Thinking augmented Pre-Training (TPT), a universal methodology that augments text with automatically generated thinking trajectories. Such augmentation effectively increases the volume of the training data and makes high-quality tokens more learnable through step-by-step reasoning and decomposition. We apply TPT across diverse training configurations up to $100$B tokens, encompassing pre-training with both constrained and abundant data, as well as mid-training from strong open-source checkpoints. Experimental results indicate that our method substantially improves the performance of LLMs across various model sizes and families. Notably, TPT enhances the data efficiency of LLM pre-training by a factor of $3$. For a $3$B parameter model, it improves the post-training performance by over $10\%$ on several challenging reasoning benchmarks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Thinking Augmented Pre-training

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-...

Exposing Pink Slime Journalism: Linguistic Signatures and Robust Detection Again...

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Навигация