ToolSample: Dual Dynamic Sampling Methods with Curriculum Learning for RL-based Tool Learning

2509.14718v1 cs.LG, cs.CL 2025-09-20
Авторы:

Zihao Feng, Xiaoxue Wang, Bowen Wu, Hailong Cao, Tiejun Zhao, Qun Yu, Baoxun Wang

Резюме на русском

#### Контекст Реинфорсментное обучение (RL) получило широкое распространение в области обучения с подкреплением (LLM-based tool learning), однако его эффективность часто страдает от огромного количества простых примеров, которые при обучении лишаются значимости. Эти примеры уже не способствуют эффективному улучшению модели. Особенно проблематично это для задач инструментального обучения, где присутствуют множество взаимосвязанных подзадач и многозначные сигналы вознаграждения. Существующие методы динамического выбора примеров (dynamic sampling methods) не учитывают эти специфические особенности, что приводит к неэффективному использованию ресурсов и ограниченному улучшению модели. #### Метод В этой работе предлагается новый подход, Dynamic Sampling with Curriculum Learning (DSCL), который адаптивно решает проблему производительности обучения с подкреплением в контексте инструментальных задач. Основные компоненты DSCL: 1. **Reward-Based Dynamic Sampling** — использует статистику по многомерным сигналам вознаграждения (среднее и дисперсия) для выделения наиболее ценных примеров. 2. **Task-Based Dynamic Curriculum Learning** — адаптивно направляет обучение на менее усвоенные подзадачи, увеличивая их вклад в общий процесс обучения. Эта архитектура позволяет эффективно использовать сложные сигналы вознаграждения и динамики подзадач в инструментальном обучении. #### Результаты Для оценки эффективности DSCL проводились различные эксперименты на BFCLv3 бенчмарке. Метод показал существенное улучшение производительности, достигнув значимое увеличение точности и эффективности обучения. Особенно заметно были улучшения в тех областях, где существуют многозначные сигналы вознаграждения и зависимости между подзадачами. На BFCLv3 DSCL демонстрировал улучшение в 3.29% по сравнению с базовыми методами, установив новый стандарт эффективности в этой области. #### Значимость DSCL представляет собой новый подход к решению проблемы эффективного обучения инструментальных моделей с подкреплением. Он применяется в сценариях, где требуется адаптивное управление обучением с учетом многозначных вознаграждений и сложности подзадач. Данный подход не только повышает эффективность обучения, но и оптимизирует ресурсы, делая процесс более эффективным. Его потенциал применения распространяется на многие области, где инструменты обучаются с подкреплением, в том числе прикладные решения в области искусственного интеллекта. #### Выводы Основным достижением DSCL является его успех в усовершенствовании процесса обучения инструментальных моделей. Этот подход демонстрирует преимущества в увеличении производительности и эффективности обучения. Будущие работы будут сосредото

Abstract

While reinforcement learning (RL) is increasingly used for LLM-based tool learning, its efficiency is often hampered by an overabundance of simple samples that provide diminishing learning value as training progresses. Existing dynamic sampling techniques are ill-suited for the multi-task structure and fine-grained reward mechanisms inherent to tool learning. This paper introduces Dynamic Sampling with Curriculum Learning (DSCL), a framework specifically designed to address this challenge by targeting the unique characteristics of tool learning: its multiple interdependent sub-tasks and multi-valued reward functions. DSCL features two core components: Reward-Based Dynamic Sampling, which uses multi-dimensional reward statistics (mean and variance) to prioritize valuable data, and Task-Based Dynamic Curriculum Learning, which adaptively focuses training on less-mastered sub-tasks. Through extensive experiments, we demonstrate that DSCL significantly improves training efficiency and model performance over strong baselines, achieving a 3.29\% improvement on the BFCLv3 benchmark. Our method provides a tailored solution that effectively leverages the complex reward signals and sub-task dynamics within tool learning to achieve superior results.

Ссылки и действия