RCP-Merging: Merging Long Chain-of-Thought Models with Domain-Specific Models by Considering Reasoning Capability as Prior
2508.03140v1
cs.CL, cs.AI
2025-08-09
Авторы:
Junyao Yang, Jianwei Wang, Huiping Zhuang, Cen Chen, Ziqian Zeng
Резюме на русском
Large Language Models (LLMs) с длинными chain-of-thought (CoT) могут решать сложные задачи за счет многоступенчатого логического рассуждения. Однако объединение таких моделей с domain-specific LLMs часто приводит к ухудшению логической способности и деградации качества результатов. Для решения этой проблемы предложен метод RCP-Merging, основанный на принципе сохранения фундаментальной CoT-способности при мерже domain-specific моделей. Метод использует метрику reasoning capability indicator для оценки и сохранения весов логической модели, при этом активно интегрируя значимые weight-ы domain-specific модели. Эксперименты на моделях Qwen2.5-7B, Llama3.1-8B и Qwen2.5-1.5B в области BioMedicine и Finance показали, что RCP-Merging улучшает task-performance в домене на 9.5% и 9.2% по сравнению с состояниями техники, при этом существенно не снижая CoT-способности. Этот подход проявляет высокую ресурсоэффективность и широкую применимость для создания моделей совмещающих общий и доменный знания.
Abstract
Large Language Models (LLMs) with long chain-of-thought (CoT) capability,
termed Reasoning Models, demonstrate superior intricate problem-solving
abilities through multi-step long CoT reasoning. To create a dual-capability
model with long CoT capability and domain-specific knowledge without
substantial computational and data costs, model merging emerges as a highly
resource-efficient method. However, significant challenges lie in merging
domain-specific LLMs with long CoT ones since nowadays merging methods suffer
from reasoning capability degradation, even gibberish output and output
collapse. To overcome this, we introduce RCP-Merging: Merging Long
Chain-of-Thought Models with Domain-Specific Models by Considering Reasoning
Capability as Prior, a novel merging framework designed to integrate
domain-specific LLMs with long CoT capability, meanwhile maintaining model
performance in the original domain. Treating reasoning model weights as
foundational prior, our method utilizes a reasoning capability indicator to
preserve core long CoT capability model weights while selectively merging
essential domain-specific weights. We conducted extensive experiments on
Qwen2.5-7B, Llama3.1-8B, and Qwen2.5-1.5B models in BioMedicine and Finance
domains. Our results show that RCP-Merging successfully merges a reasoning
model with domain-specific ones, improving domain task performance by 9.5% and
9.2% over state-of-the-art methods, without significantly harming the original
long CoT reasoning capability.
Ссылки и действия
Дополнительные ресурсы: