Авторы:
Siheng Li, Kejiao Li, Zenan Xu, Guanhua Huang, Evander Yang, Kun Li, Haoyuan Wu, Jiajia Wu, Zihao Zheng, Chenchen Zhang, Kun Shi, Kyrierl Deng, Qi Yi, Ruibin Xiong, Tingqiang Xu, Yuhao Jiang, Jianfeng Yan, Yuyuan Zeng, Guanghui Xu, Jinbao Xue, Zhijiang Xu, Zheng Fang, Shuai Li, Qibin Liu, Xiaoxue Li, Zhuoyu Li, Yangyu Tao, Fei Gao, Cheng Jiang, Bo Chao Wang, Kai Liu, Jianchen Zhu, Wai Lam, Wayyt Wang, Bo Zhou, Di Wang
#### Контекст
С быстрым ростом вычислительных ресурсов в области машинного обучения возникают новые вызовы, связанные с ограниченностью качественных данных для обучения больших языковых моделей (LLMs). Это ограничение приводит к ошибкам в распространенных архитектурах, требуя новых подходов для улучшения моделей. Решением этой проблемы может стать использование новых методологий, которые позволят моделям учиться не только из последовательных данных, но также самостоятельно из своих ошибок в процессе обучения. Этот подход может привести к более глубокой пониманию языка и повышению точности моделей.
#### Метод
Методом RLPT (Reinforcement Learning on Pre-Training Data) предлагается применение методов оптимизации языковых моделей с помощью решателя RL (Reinforcement Learning). Этот подход работает независимо от традиционных методов, таких как супервизорное обучение (supervised learning), и использует возможности RL для динамического экспериментирования и выдачи решений. Модель, используя RLPT, может автоматически выявить сильные и слабые стороны своих решений в процессе обучения. Основной механизм — это обучение следующего участка текста (next-segment reasoning), где модель выдает предсказания о следующей части текста на основе предыдущего контекста. Это позволяет модели учиться более гибко и детально, обнаруживая новые сценарии и улучшая свойства языка.
#### Результаты
Работа RLPT проверена на нескольких моделях, включая Qwen3-4B-Base. Эксперименты показали, что RLPT обеспечивает значимые улучшения в различных бенчмарках, таких как MMLU, GPQA-Diamond и AIME24. Например, применение RLPT к Qwen3-4B-Base привело к улучшениям на $3.0$, $5.1$ и $8.1$ точек, соответственно. Результаты показали, что RLPT демонстрирует значительную стабильность и позволяет модели лучше учиться в более широких контекстах, улучшая их общие умения в области логики и решения задач.
#### Значимость
Решение RLPT может быть применено в различных областях, где требуется мощность и точность языковых моделей. Здесь возможны применения в математической обработке текста, научной переработке текста и виртуальных помощниках. В отличие от существующих методов, RLPT исключает нужды в сторонних ресурсах, таких как ручные оценки, и делает модели более эффективными в процессе обучения. Это может привести к повышению производительности и уменьшению затрат на обучение моделей на больших объемах данных.
#### Выводы
RLPT добивается значимых улучшений в решении задач языковой моделирования, обеспечивая более широкое универсальное понимание и логическое мышление. В дальнейшем, этот подход может быть расширен для дальнейшего улучшения моделей, включая их применение в различных задачах, таких как
Annotation:
The growing disparity between the exponential scaling of computational
resources and the finite growth of high-quality text data now constrains
conventional scaling approaches for large language models (LLMs). To address
this challenge, we introduce Reinforcement Learning on Pre-Training data
(RLPT), a new training-time scaling paradigm for optimizing LLMs. In contrast
to prior approaches that scale training primarily through supervised learning,
RLPT enables the policy to autonomously explore m...
ID: 2509.19249v1
cs.CL, cs.AI, cs.LG