SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models

2508.05015v1 cs.LG, cs.AI 2025-08-09
Авторы:

Dai Do, Manh Nguyen, Svetha Venkatesh, Hung Le

Резюме на русском

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Проблематика исследования заключается в недостаточной эффективности процессов fine-tuning больших языковых моделей (Large Language Models, LLMs) с помощью reinforcement learning (RL). Несмотря на высокую способность LLMs к решению задач логического вывода, применение RL требует значительных вычислительных ресурсов и больших объемов данных. Это делает такой подход малоэффективным для меньших моделей, которые могли бы пользоваться преимуществами RL без необходимости в таких объемах вычислений. Традиционные методы curriculum learning или выбора данных в основном опираются на гейстерические подходы, которые не всегда обеспечивают оптимальное использование ресурсов. Имеющиеся методы требуют значительных вычислительных затрат, что ограничивает их масштабируемость и применимость в реальных условиях. Таким образом, необходимо разработать более эффективный метод, позволяющий адаптировать процесс обучения к возможностям модели, оптимизируя выбор данных и время их использования. Задача состоит в том, чтобы создать фреймворк, который может решать эту проблему, обеспечивая высокую эффективность обучения за счет оптимизации выбора и порядка применения данных для обучения. Такой подход должен уменьшить количество необходимых выборок для достижения высоких результатов, что может быть критически важно для применения LLMs в реальных задачах с ограниченными вычислительными мощностями. # ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод **SPaRFT** (Self-Paced Reinforcement Fine-Tuning), который представляет собой фреймворк для эффективного обучения LLMs с помощью RL, основанный на принципе self-paced learning. Основная идея заключается в том, чтобы оптимизировать выбор данных и порядок их использования в зависимости от текущих возможностей модели. В первую очередь, используется **кластеризация данных** (cluster-based data reduction), которая позволяет разделить обучающий набор на кластеры на основе семантических и сложностных характеристик. Это позволяет создать компактный, но разнообразный набор данных, который устраняет избыточность и повышает эффективность обучения. Далее, используется **множественный бандит** (multi-armed bandit), который рассматривает кластеры данных как "руки" (arms) и оптимизирует выбор данных на основе текущей производительности модели. Этот подход позволяет динамически регулировать выбор данных в зависимости от того, как хорошо модель справляется с различными кластерами. Таким образом, метод SPaRFT сочетает в себе эффективное управление данными и адаптивный подход к обучению, что позволяет достичь высоких результатов с минимальными ресурсами. # ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода SPaRFT было проведено ряд экспериментов на различных бенчмарках по реазонанию. Эксперименты показали, что SPaRFT достигает результатов, сравнимых или лучших по сравнению со стандартными методами, при этом используя до \(100\times\) меньше данных для обучения. В экспериментах использовались разнообразные наборы данных, которые позволили продемонстрировать эффективность кластеризации и адаптивного выбора данных. Анализ результатов показал, что объединение кластеризации данных и множественного бандита значительно повышает эффективность обучения. Кроме того, были проведены абляционные исследования, которые подтвердили важность каждого из компонентов метода. # ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значение метода SPaRFT заключается в том, что он позволяет эффективно использовать ресурсы для обучения LLMs, что может быть критически важно в ситуациях, когда доступны ограниченные вычислительные мощности. Этот подход может быть применен в различных областях, где необходимо обучить модели с высокими требованиями к выводу, но при этом с ограничениями по ресурсам. SPaRFT также может быть полезен в ситуациях, когда необходимо быстро адаптировать модель к новым задачам, не требуя больших объемов данных для обучения. Это может быть особенно актуально в задачах, требующих быстрого развертывания моделей, таких как обработка естественного языка в реальном времени или решение задач, требующих высокой скорости адаптации. # ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках исследования было показано, что SPaRFT может значительно повысить эффективность обучения LLMs с помощью RL, оптимизируя процесс выбора данных и порядка их использования. Основным достижением является то, что метод позволяет достичь сравнимых или лучших результатов по сравнению со стандартными подходами, при этом значительно сокращая объем необходимых данных. Будущие исследования могут быть направлены на дальнейшее улучшение метода, в том числе на расширение его применимости к более широкому классу задач и моделей. Кроме того, можно рассмотреть возможность интеграции SPaRFT с другими методами обучения, чтобы достичь еще большей эффективности и масштабируемости.

Abstract

Large language models (LLMs) have shown strong reasoning capabilities when fine-tuned with reinforcement learning (RL). However, such methods require extensive data and compute, making them impractical for smaller models. Current approaches to curriculum learning or data selection are largely heuristic-driven or demand extensive computational resources, limiting their scalability and generalizability. We propose \textbf{SPaRFT}, a self-paced learning framework that enables efficient learning based on the capability of the model being trained through optimizing which data to use and when. First, we apply \emph{cluster-based data reduction} to partition training data by semantics and difficulty, extracting a compact yet diverse subset that reduces redundancy. Then, a \emph{multi-armed bandit} treats data clusters as arms, optimized to allocate training samples based on model current performance. Experiments across multiple reasoning benchmarks show that SPaRFT achieves comparable or better accuracy than state-of-the-art baselines while using up to \(100\times\) fewer samples. Ablation studies and analyses further highlight the importance of both data clustering and adaptive selection. Our results demonstrate that carefully curated, performance-driven training curricula can unlock strong reasoning abilities in LLMs with minimal resources.

Ссылки и действия