RCP-Merging: Merging Long Chain-of-Thought Models with Domain-Specific Models by Considering Reasoning Capability as Prior

2508.03140v1 cs.CL, cs.AI 2025-08-09
Авторы:

Junyao Yang, Jianwei Wang, Huiping Zhuang, Cen Chen, Ziqian Zeng

Резюме на русском

Large Language Models (LLMs) с длинными chain-of-thought (CoT) могут решать сложные задачи за счет многоступенчатого логического рассуждения. Однако объединение таких моделей с domain-specific LLMs часто приводит к ухудшению логической способности и деградации качества результатов. Для решения этой проблемы предложен метод RCP-Merging, основанный на принципе сохранения фундаментальной CoT-способности при мерже domain-specific моделей. Метод использует метрику reasoning capability indicator для оценки и сохранения весов логической модели, при этом активно интегрируя значимые weight-ы domain-specific модели. Эксперименты на моделях Qwen2.5-7B, Llama3.1-8B и Qwen2.5-1.5B в области BioMedicine и Finance показали, что RCP-Merging улучшает task-performance в домене на 9.5% и 9.2% по сравнению с состояниями техники, при этом существенно не снижая CoT-способности. Этот подход проявляет высокую ресурсоэффективность и широкую применимость для создания моделей совмещающих общий и доменный знания.

Abstract

Large Language Models (LLMs) with long chain-of-thought (CoT) capability, termed Reasoning Models, demonstrate superior intricate problem-solving abilities through multi-step long CoT reasoning. To create a dual-capability model with long CoT capability and domain-specific knowledge without substantial computational and data costs, model merging emerges as a highly resource-efficient method. However, significant challenges lie in merging domain-specific LLMs with long CoT ones since nowadays merging methods suffer from reasoning capability degradation, even gibberish output and output collapse. To overcome this, we introduce RCP-Merging: Merging Long Chain-of-Thought Models with Domain-Specific Models by Considering Reasoning Capability as Prior, a novel merging framework designed to integrate domain-specific LLMs with long CoT capability, meanwhile maintaining model performance in the original domain. Treating reasoning model weights as foundational prior, our method utilizes a reasoning capability indicator to preserve core long CoT capability model weights while selectively merging essential domain-specific weights. We conducted extensive experiments on Qwen2.5-7B, Llama3.1-8B, and Qwen2.5-1.5B models in BioMedicine and Finance domains. Our results show that RCP-Merging successfully merges a reasoning model with domain-specific ones, improving domain task performance by 9.5% and 9.2% over state-of-the-art methods, without significantly harming the original long CoT reasoning capability.

Ссылки и действия