Merge-of-Thought Distillation

2509.08814v2 cs.LG, cs.AI, cs.CL 2025-09-12

Авторы:

Zhanming Shen, Zeyu Qin, Zenan Huang, Hao Chen, Jiaqi Hu, Yihong Zhuang, Guoshan Lu, Gang Chen, Junbo Zhao

Резюме на русском

## Контекст В последние годы стало очевидно, что модели цепочки мыслей (Chain-of-Thought, CoT) эффективно улучшают решение задач, включая математические задачи, вопросы и ответы (QA), и другие. Несмотря на их успех, эффективное выделение цепочки мыслей (CoT Distillation) для моделей с длинными цепочками мыслей остается проблемой. Основная проблема заключается в необходимости обучения моделей с использованием крупных корпусов цепочек мыслей, что требует больших ресурсов вычислительной мощности и времени. Более того, существующие подходы часто ограничиваются использованием одного "оракульского" учителя, что не соответствует практическим ситуациям с несколькими доступными учителями и разнообразными данными. Однако новые подходы к преодолению этих ограничений могут расширить возможности моделей цепочек мыслей и улучшить их потенциал для решения различных задач. ## Метод Merge-of-Thought Distillation (MoT) — это новый подход для выделения цепочки мыслей, который работает с несколькими учителями и объединяет их возможности в одном модели. Основная идея заключается в том, чтобы обучить модель с использованием нескольких цепочек мыслей, используя различные учителей, а затем слить их в одну студентскую модель. Метод устраняет конфликты между разными учителями и снижает возможные проблемы с переобучением. Архитектура MoT включает в себя несколько супервайзед файн-тюнинг бранчей, каждый из которых обучается с учителем-специалистом, и в конце цикла происходит слияние весов всех моделей в одну. Это позволяет увеличить универсальность модели и улучшить ее качество на различных данных. ## Результаты Чтобы протестировать MoT, авторы провели эксперименты на математических задачах, включая тесты, требующие длинных цепочек мыслей. Использовались данные из различных корпусов, включая Qwen3-14B, DEEPSEEK-R1, QWEN3-30B-A3B, QWEN3-32B и OPENAI-O1. Результаты показали, что MoT повышает производительность модели Qwen3-14B, достигая или превосходя результаты других моделей. Также было показано, что MoT позволяет снизить вероятность переобучения и повысить универсальность модели, делая ее эффективнее в различных задачах. ## Значимость Merge-of-Thought Distillation превращает возможность использования нескольких учителей в практическое и эффективное решение для моделей цепочек мыслей. Он может применяться в различных областях, включая математику, естественное языковое обучение и другие QA-системы. Его преимущества заключаются в том, что он повышает качество модели, уменьшает вероятность переобучения и позволяет использовать разных учи

Abstract

Efficient reasoning distillation for long chain-of-thought (CoT) models is increasingly constrained by the assumption of a single oracle teacher, despite practical availability of multiple candidate teachers and growing CoT corpora. We revisit teacher selection and observe that different students have different "best teachers," and even for the same student the best teacher can vary across datasets. Therefore, to unify multiple teachers' reasoning abilities into student with overcoming conflicts among various teachers' supervision, we propose Merge-of-Thought Distillation (MoT), a lightweight framework that alternates between teacher-specific supervised fine-tuning branches and weight-space merging of the resulting student variants. On competition math benchmarks, using only about 200 high-quality CoT samples, applying MoT to a Qwen3-14B student surpasses strong models including DEEPSEEK-R1, QWEN3-30B-A3B, QWEN3-32B, and OPENAI-O1, demonstrating substantial gains. Besides, MoT consistently outperforms the best single-teacher distillation and the naive multi-teacher union, raises the performance ceiling while mitigating overfitting, and shows robustness to distribution-shifted and peer-level teachers. Moreover, MoT reduces catastrophic forgetting, improves general reasoning beyond mathematics and even cultivates a better teacher, indicating that consensus-filtered reasoning features transfer broadly. These results position MoT as a simple, scalable route to efficiently distilling long CoT capabilities from diverse teachers into compact students.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Merge-of-Thought Distillation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация