ToolSample: Dual Dynamic Sampling Methods with Curriculum Learning for RL-based Tool Learning
2509.14718v1
cs.LG, cs.CL
2025-09-20
Авторы:
Zihao Feng, Xiaoxue Wang, Bowen Wu, Hailong Cao, Tiejun Zhao, Qun Yu, Baoxun Wang
Резюме на русском
#### Контекст
Реинфорсментное обучение (RL) получило широкое распространение в области обучения с подкреплением (LLM-based tool learning), однако его эффективность часто страдает от огромного количества простых примеров, которые при обучении лишаются значимости. Эти примеры уже не способствуют эффективному улучшению модели. Особенно проблематично это для задач инструментального обучения, где присутствуют множество взаимосвязанных подзадач и многозначные сигналы вознаграждения. Существующие методы динамического выбора примеров (dynamic sampling methods) не учитывают эти специфические особенности, что приводит к неэффективному использованию ресурсов и ограниченному улучшению модели.
#### Метод
В этой работе предлагается новый подход, Dynamic Sampling with Curriculum Learning (DSCL), который адаптивно решает проблему производительности обучения с подкреплением в контексте инструментальных задач. Основные компоненты DSCL:
1. **Reward-Based Dynamic Sampling** — использует статистику по многомерным сигналам вознаграждения (среднее и дисперсия) для выделения наиболее ценных примеров.
2. **Task-Based Dynamic Curriculum Learning** — адаптивно направляет обучение на менее усвоенные подзадачи, увеличивая их вклад в общий процесс обучения.
Эта архитектура позволяет эффективно использовать сложные сигналы вознаграждения и динамики подзадач в инструментальном обучении.
#### Результаты
Для оценки эффективности DSCL проводились различные эксперименты на BFCLv3 бенчмарке. Метод показал существенное улучшение производительности, достигнув значимое увеличение точности и эффективности обучения. Особенно заметно были улучшения в тех областях, где существуют многозначные сигналы вознаграждения и зависимости между подзадачами. На BFCLv3 DSCL демонстрировал улучшение в 3.29% по сравнению с базовыми методами, установив новый стандарт эффективности в этой области.
#### Значимость
DSCL представляет собой новый подход к решению проблемы эффективного обучения инструментальных моделей с подкреплением. Он применяется в сценариях, где требуется адаптивное управление обучением с учетом многозначных вознаграждений и сложности подзадач. Данный подход не только повышает эффективность обучения, но и оптимизирует ресурсы, делая процесс более эффективным. Его потенциал применения распространяется на многие области, где инструменты обучаются с подкреплением, в том числе прикладные решения в области искусственного интеллекта.
#### Выводы
Основным достижением DSCL является его успех в усовершенствовании процесса обучения инструментальных моделей. Этот подход демонстрирует преимущества в увеличении производительности и эффективности обучения. Будущие работы будут сосредото
Abstract
While reinforcement learning (RL) is increasingly used for LLM-based tool
learning, its efficiency is often hampered by an overabundance of simple
samples that provide diminishing learning value as training progresses.
Existing dynamic sampling techniques are ill-suited for the multi-task
structure and fine-grained reward mechanisms inherent to tool learning. This
paper introduces Dynamic Sampling with Curriculum Learning (DSCL), a framework
specifically designed to address this challenge by targeting the unique
characteristics of tool learning: its multiple interdependent sub-tasks and
multi-valued reward functions. DSCL features two core components: Reward-Based
Dynamic Sampling, which uses multi-dimensional reward statistics (mean and
variance) to prioritize valuable data, and Task-Based Dynamic Curriculum
Learning, which adaptively focuses training on less-mastered sub-tasks. Through
extensive experiments, we demonstrate that DSCL significantly improves training
efficiency and model performance over strong baselines, achieving a 3.29\%
improvement on the BFCLv3 benchmark. Our method provides a tailored solution
that effectively leverages the complex reward signals and sub-task dynamics
within tool learning to achieve superior results.
Ссылки и действия
Дополнительные ресурсы: