Beyond Scaling Law: A Data-Efficient Distillation Framework for Reasoning

2508.09883v1 cs.LG, cs.AI 2025-08-15
Авторы:

Xiaojun Wu, Xiaoguang Jiang, Huiyang Li, Jucai Zhai, Dengfeng Liu, Qiaobo Hao, Huang Liu, Zhiguo Yang, Ji Xie, Ninglun Gu, Jin Yang, Kailai Zhang, Yelun Bao, Jun Wang

Резюме на русском

## Контекст В последние годы появились значительные достижения в области развития бо LARGE LANGUAGE MODELS (LLMs), которые проявляют выдающиеся способности к разуманию в задачах, таких как алгоритмическое программирование и решение математических задач. Однако многие из этих моделей требуют больших объемов данных и ресурсоемких процессов обучения, что приводит к высоким экономическим и техническим затратам. Несмотря на то что некоторые методы показывают, что специально созданные небольшие данные могут стимулировать разуманию через дистилляцию, существует сложность в формировании эффективных методов, которые могут быть более эффективными в упрощении и улучшении разуманию, используя меньшую вычислительную стоимость. Мы предлагаем **DED (Data-Efficient Distillation)** — рамку для дистилляции, которая стремится оптимизировать границу рациональной дистилляции. Мы используем новые подходы, основанные на наблюдениях о связи между учительным моделью, эффективностью выборки и способностью моделей к разуманию. ## Метод Наш **DED-фрэймворк** работает на основе трех основных компонентов: 1. **Идентификация эффективного учителя**: Мы выясняем, что простой параметр трудности бенчмарка не является корректным критерием выбора учителя. Мы разработали метод, который позволяет выбрать оптимальную модель учителя, оптимизировав ее для разумания через дистилляцию. 2. **Оптимизация дистилляционного процесса**: Мы отклоняем стратегию "больше данных — лучше разумание". Вместо этого мы предлагаем методы, которые позволяют применять меньшие, но более целенаправленные данные в процессе дистилляции, чтобы добиться баланса между внутридоменной и внедоменной способностью модели. 3. **Изменение горизонтов разумания**: Мы используем разнообразные распространенные траектории разумания, позволяя модели не только выполнять задачи, но и развивать понимание причинности в различных контекстах. ## Результаты Мы провели эксперименты на следующих наборах задач: **AIME 2024/2025** (математический разуманий), **MATH-500** (математические задачи) и **LiveCodeBench** (кодогенерация). Модель, обученная с помощью DED, достигла **state-of-the-art** результатов, используя только **800 примеров**, что значительно снизило необходимость в больших объемах данных. Таким образом, мы доказываем, что наш подход эффективен и в разумании, и в общем использовании, не прибегая к излишним вычислительным затратам. ## Значимость Наша рамка **DED** имеет широкие приложения в областях машинного обучения, где необходимо улучшить разумание, не прибегая к масштабированию моделей. Этот подход позволя

Abstract

Large language models (LLMs) demonstrate remarkable reasoning capabilities in tasks such as algorithmic coding and mathematical problem-solving. Recent methods have improved reasoning through expanded corpus and multistage training combining reinforcement learning and supervised fine-tuning. Although some methods suggest that small but targeted dataset can incentivize reasoning via only distillation, a reasoning scaling laws is still taking shape, increasing computational costs. To address this, we propose a data-efficient distillation framework (DED) that optimizes the Pareto frontier of reasoning distillation. Inspired by the on-policy learning and diverse roll-out strategies of reinforcement learning, the key idea of our approach is threefold: (1) We identify that benchmark scores alone do not determine an effective teacher model. Through comprehensive comparisons of leading reasoning LLMs, we develop a method to select an optimal teacher model. (2) While scaling distillation can enhance reasoning, it often degrades out-of-domain performance. A carefully curated, smaller corpus achieves a balanced trade-off between in-domain and out-of-domain capabilities. (3) Diverse reasoning trajectories encourage the student model to develop robust reasoning skills. We validate our method through evaluations on mathematical reasoning (AIME 2024/2025, MATH-500) and code generation (LiveCodeBench), achieving state-of-the-art results with only 0.8k carefully curated examples, bypassing the need for extensive scaling. Our systematic analysis demonstrates that DED outperforms existing methods by considering factors beyond superficial hardness, token length, or teacher model capability. This work offers a practical and efficient pathway to advanced reasoning while preserving general capabilities.

Ссылки и действия