Exploring Superior Function Calls via Reinforcement Learning
2508.05118v2
cs.LG, cs.AI, cs.CL
2025-08-11
Авторы:
Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang
Резюме на русском
## Контекст
Функциональные вызовы являются ключевым компонентом для развертывания бо LLM в реальных приложениях, однако существующие методы тренировки часто не способны развивать резонантные стратегии. Методы супервизорного тюнинга приводят к моделям, ограниченным в их возможности, тогда как стандартные методы RL сталкиваются с проблемами в управлении сложной структурой действий. В работе предлагается новый RL-фреймворк, ориентированный на улучшение групповой политики относительной оптимизации с использованием стратегического эксплорения на основе энтропии. Это решение направлено на решение трех ключевых проблем: нехватка эксплорения во время политического обучения, отсутствие структурированного рассуждения в цепочках мыслей и неэффективность верификации извлечения параметров.
## Метод
Методология основана на двух этапах подготовки данных. В первой фазе используется итеративный процесс, в котором LLM сам оценивает качество выборки, а во второй фазе используется абстрактное синтаксическое дерево для верификации. Фреймворк RL строится на основе усовершенствованной стратегии "политики с относительным групповым оптимизацией", в которой энтропия эксплорения играет ключевую роль в развитии разума. Это позволяет модели лучше отделять значимые от ненадежных вызовов, строить логические цепочки и эффективно проверять входные данные.
## Результаты
Проведенные эксперименты на Berkley Function Calling Leaderboard показали, что предлагаемый подход достигает 86.02% правильности, превосходя стандартные методы GRPO на 6% в сложных сценариях. Особенно выдающиеся результаты получены при применении к моделям, специализирующимся на кодировании. Это подтверждает, что структурированные подходы к генерации языка могут значительно улучшить качество результатов в обучении RL для функциональных вызовов.
## Значимость
Предлагаемый подход может быть применен в различных сегментах, где требуется структурированная система логического поведения, таких как кодирование, анализ и визуализация данных. Благодаря стратегическому эксплору и структурному рассуждению, он предлагает более надежные и точные решения. Последствия его развертывания могут включать улучшение производительности систем и создание более удобных интерфейсов для пользователей.
## Выводы
Этот рабочий процесс RL показал свою эффективность в решении сложных задач функциональных вызовов, достигнув лидирующих результатов. Мы планируем продолжить работу над более сложными сценариями и расширением возможностей E2E-системы, чтобы обеспечить универсальность и масш
Abstract
Function calling capabilities are crucial for deploying Large Language Models
in real-world applications, yet current training approaches fail to develop
robust reasoning strategies. Supervised fine-tuning produces models that rely
on superficial pattern matching, while standard reinforcement learning methods
struggle with the complex action space of structured function calls. We present
a novel reinforcement learning framework designed to enhance group relative
policy optimization through strategic entropy based exploration specifically
tailored for function calling tasks. Our approach addresses three critical
challenges in function calling: insufficient exploration during policy
learning, lack of structured reasoning in chain-of-thought generation, and
inadequate verification of parameter extraction. Our two-stage data preparation
pipeline ensures high-quality training samples through iterative LLM evaluation
and abstract syntax tree validation. Extensive experiments on the Berkeley
Function Calling Leaderboard demonstrate that this framework achieves
state-of-the-art performance among open-source models with 86.02\% overall
accuracy, outperforming standard GRPO by up to 6\% on complex multi-function
scenarios. Notably, our method shows particularly strong improvements on
code-pretrained models, suggesting that structured language generation
capabilities provide an advantageous starting point for reinforcement learning
in function calling tasks. We will release all the code, models and dataset to
benefit the community.
Ссылки и действия
Дополнительные ресурсы: