Merge-of-Thought Distillation
2509.08814v2
cs.LG, cs.AI, cs.CL
2025-09-12
Авторы:
Zhanming Shen, Zeyu Qin, Zenan Huang, Hao Chen, Jiaqi Hu, Yihong Zhuang, Guoshan Lu, Gang Chen, Junbo Zhao
Резюме на русском
## Контекст
В последние годы стало очевидно, что модели цепочки мыслей (Chain-of-Thought, CoT) эффективно улучшают решение задач, включая математические задачи, вопросы и ответы (QA), и другие. Несмотря на их успех, эффективное выделение цепочки мыслей (CoT Distillation) для моделей с длинными цепочками мыслей остается проблемой. Основная проблема заключается в необходимости обучения моделей с использованием крупных корпусов цепочек мыслей, что требует больших ресурсов вычислительной мощности и времени. Более того, существующие подходы часто ограничиваются использованием одного "оракульского" учителя, что не соответствует практическим ситуациям с несколькими доступными учителями и разнообразными данными. Однако новые подходы к преодолению этих ограничений могут расширить возможности моделей цепочек мыслей и улучшить их потенциал для решения различных задач.
## Метод
Merge-of-Thought Distillation (MoT) — это новый подход для выделения цепочки мыслей, который работает с несколькими учителями и объединяет их возможности в одном модели. Основная идея заключается в том, чтобы обучить модель с использованием нескольких цепочек мыслей, используя различные учителей, а затем слить их в одну студентскую модель. Метод устраняет конфликты между разными учителями и снижает возможные проблемы с переобучением. Архитектура MoT включает в себя несколько супервайзед файн-тюнинг бранчей, каждый из которых обучается с учителем-специалистом, и в конце цикла происходит слияние весов всех моделей в одну. Это позволяет увеличить универсальность модели и улучшить ее качество на различных данных.
## Результаты
Чтобы протестировать MoT, авторы провели эксперименты на математических задачах, включая тесты, требующие длинных цепочек мыслей. Использовались данные из различных корпусов, включая Qwen3-14B, DEEPSEEK-R1, QWEN3-30B-A3B, QWEN3-32B и OPENAI-O1. Результаты показали, что MoT повышает производительность модели Qwen3-14B, достигая или превосходя результаты других моделей. Также было показано, что MoT позволяет снизить вероятность переобучения и повысить универсальность модели, делая ее эффективнее в различных задачах.
## Значимость
Merge-of-Thought Distillation превращает возможность использования нескольких учителей в практическое и эффективное решение для моделей цепочек мыслей. Он может применяться в различных областях, включая математику, естественное языковое обучение и другие QA-системы. Его преимущества заключаются в том, что он повышает качество модели, уменьшает вероятность переобучения и позволяет использовать разных учи
Abstract
Efficient reasoning distillation for long chain-of-thought (CoT) models is
increasingly constrained by the assumption of a single oracle teacher, despite
practical availability of multiple candidate teachers and growing CoT corpora.
We revisit teacher selection and observe that different students have different
"best teachers," and even for the same student the best teacher can vary across
datasets. Therefore, to unify multiple teachers' reasoning abilities into
student with overcoming conflicts among various teachers' supervision, we
propose Merge-of-Thought Distillation (MoT), a lightweight framework that
alternates between teacher-specific supervised fine-tuning branches and
weight-space merging of the resulting student variants. On competition math
benchmarks, using only about 200 high-quality CoT samples, applying MoT to a
Qwen3-14B student surpasses strong models including DEEPSEEK-R1, QWEN3-30B-A3B,
QWEN3-32B, and OPENAI-O1, demonstrating substantial gains. Besides, MoT
consistently outperforms the best single-teacher distillation and the naive
multi-teacher union, raises the performance ceiling while mitigating
overfitting, and shows robustness to distribution-shifted and peer-level
teachers. Moreover, MoT reduces catastrophic forgetting, improves general
reasoning beyond mathematics and even cultivates a better teacher, indicating
that consensus-filtered reasoning features transfer broadly. These results
position MoT as a simple, scalable route to efficiently distilling long CoT
capabilities from diverse teachers into compact students.
Ссылки и действия
Дополнительные ресурсы: