CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning
2508.15868v1
cs.CL, cs.AI
2025-08-25
Авторы:
Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang
Резюме на русском
#### Контекст
В последние годы появилась большая мотивация для исследования Large Language Models (LLMs), в связи с их мощными возможностями в области текстового понимания, генерации и решения задач. Однако, несмотря на их высокую базовую точность, LLMs часто сталкиваются с проблемами связанными с недостаточной прозрачностью и ограниченной возможностью решения расширенных задач, которые требуют логического мышления. Это ставит перед исследователями задачу улучшения их reasoning-возможностей. Одним из подходов является использование Reinforcement Learning (RL) вместе с Chain-of-Thought (CoT) для выравнивания моделей. Однако, существующие RL-based финальные модели недостаточно эффективны в использовании CoT, что приводит к появлению проблем с устойчивостью и стабильностью, а также делает процесс обучения неоптимальным. Кроме того, в существующих SFT-подходах нередко недостаточно учета CoT. Значительные теоретические работы и практические исследования показали, что лучший вариант решения этой проблемы может быть достигнут с помощью новых работ по оптимизации CoT-based RL.
#### Метод
Мы предлагаем Contrastive Learning with annotated CoT-based Reinforced Fine-Tuning (CARFT), построенный на ряде инновационных принципов. В центре нашего подхода лежит создание представления для каждого Chain-of-Thought-based reasoning path. Мы интегрировали новые соотносительные сигналы, которые включают в себя RL-based fine-tuning и контрастивное обучение. Это позволяет улучшить возможности модели для выявления точных и стабильных решений. Кроме того, мы использовали двусторонний fine-tuning — с одной стороны, включая порожденные данные RL, а с другой — применяя контрастивное обучение на входных сообщениях. Эта архитектура позволяет не только полностью использовать CoT, но и защитить модель от неустойчивости, которая может возникнуть в процессе обучения.
#### Результаты
Мы провели эксперименты с тремя базовыми подходами, двумя моделями (LLM) и двумя наборами данных, чтобы тестировать эффективность CARFT. Результаты показали, что наш подход избавляет модель от распространенных проблем в RL-based fine-tuning, таких как устойчивость и стабильность. Мы обнаружили, что CARFT демонстрирует до 10.15% улучшения в точности относительно существующих подходов, а также улучшает эффективность модели в 30.62% за счет более полного использования CoT. Эти результаты подтверждают, что CARFT является эффективным инструментом для улучшения LLM reasoning.
#### Значимость
Предлагаемый подход может быть применен в различных областях, таких как медицинские приложения, юридическая сфера, информационные системы, где требуется высокая точность и логическое мышление. CARFT также может стать мощным инструментом для развития AI, так как он улучшает кач
Abstract
Reasoning capability plays a significantly critical role in the the broad
applications of Large Language Models (LLMs). To enhance the reasoning
performance of LLMs, diverse Reinforcement Learning (RL)-based fine-tuning
approaches have been proposed to address the limited generalization capability
of LLMs trained solely via Supervised Fine-Tuning (SFT). Despite their
effectiveness, two major limitations hinder the advancement of LLMs. First,
vanilla RL-based approaches ignore annotated Chain-of-Thought (CoT) and
incorporate unstable reasoning path sampling, which typically results in model
collapse, unstable training process, and suboptimal performance. Second,
existing SFT approaches generally overemphasize the annotated CoT, potentially
leading to performance degradation due to insufficient exploitation of
potential CoT. In this paper, we propose a Contrastive learning with annotated
CoT-based Reinforced Fine-Tuning approach, i.e., \TheName{}, to enhance the
reasoning performance of LLMs while addressing the aforementioned limitations.
Specifically, we propose learning a representation for each CoT. Based on this
representation, we design novel contrastive signals to guide the fine-tuning
process. Our approach not only fully exploits the available annotated CoT but
also stabilizes the fine-tuning procedure by incorporating an additional
unsupervised learning signal. We conduct comprehensive experiments and in-depth
analysis with three baseline approaches, two foundation models, and two
datasets to demonstrate significant advantages of \TheName{} in terms of
robustness, performance (up to 10.15\%), and efficiency (up to 30.62\%). Code
is available at https://github.com/WNQzhu/CARFT.
Ссылки и действия
Дополнительные ресурсы: