Exploring Superior Function Calls via Reinforcement Learning

2508.05118v2 cs.LG, cs.AI, cs.CL 2025-08-11
Авторы:

Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang

Резюме на русском

## Контекст Функциональные вызовы являются ключевым компонентом для развертывания бо LLM в реальных приложениях, однако существующие методы тренировки часто не способны развивать резонантные стратегии. Методы супервизорного тюнинга приводят к моделям, ограниченным в их возможности, тогда как стандартные методы RL сталкиваются с проблемами в управлении сложной структурой действий. В работе предлагается новый RL-фреймворк, ориентированный на улучшение групповой политики относительной оптимизации с использованием стратегического эксплорения на основе энтропии. Это решение направлено на решение трех ключевых проблем: нехватка эксплорения во время политического обучения, отсутствие структурированного рассуждения в цепочках мыслей и неэффективность верификации извлечения параметров. ## Метод Методология основана на двух этапах подготовки данных. В первой фазе используется итеративный процесс, в котором LLM сам оценивает качество выборки, а во второй фазе используется абстрактное синтаксическое дерево для верификации. Фреймворк RL строится на основе усовершенствованной стратегии "политики с относительным групповым оптимизацией", в которой энтропия эксплорения играет ключевую роль в развитии разума. Это позволяет модели лучше отделять значимые от ненадежных вызовов, строить логические цепочки и эффективно проверять входные данные. ## Результаты Проведенные эксперименты на Berkley Function Calling Leaderboard показали, что предлагаемый подход достигает 86.02% правильности, превосходя стандартные методы GRPO на 6% в сложных сценариях. Особенно выдающиеся результаты получены при применении к моделям, специализирующимся на кодировании. Это подтверждает, что структурированные подходы к генерации языка могут значительно улучшить качество результатов в обучении RL для функциональных вызовов. ## Значимость Предлагаемый подход может быть применен в различных сегментах, где требуется структурированная система логического поведения, таких как кодирование, анализ и визуализация данных. Благодаря стратегическому эксплору и структурному рассуждению, он предлагает более надежные и точные решения. Последствия его развертывания могут включать улучшение производительности систем и создание более удобных интерфейсов для пользователей. ## Выводы Этот рабочий процесс RL показал свою эффективность в решении сложных задач функциональных вызовов, достигнув лидирующих результатов. Мы планируем продолжить работу над более сложными сценариями и расширением возможностей E2E-системы, чтобы обеспечить универсальность и масш

Abstract

Function calling capabilities are crucial for deploying Large Language Models in real-world applications, yet current training approaches fail to develop robust reasoning strategies. Supervised fine-tuning produces models that rely on superficial pattern matching, while standard reinforcement learning methods struggle with the complex action space of structured function calls. We present a novel reinforcement learning framework designed to enhance group relative policy optimization through strategic entropy based exploration specifically tailored for function calling tasks. Our approach addresses three critical challenges in function calling: insufficient exploration during policy learning, lack of structured reasoning in chain-of-thought generation, and inadequate verification of parameter extraction. Our two-stage data preparation pipeline ensures high-quality training samples through iterative LLM evaluation and abstract syntax tree validation. Extensive experiments on the Berkeley Function Calling Leaderboard demonstrate that this framework achieves state-of-the-art performance among open-source models with 86.02\% overall accuracy, outperforming standard GRPO by up to 6\% on complex multi-function scenarios. Notably, our method shows particularly strong improvements on code-pretrained models, suggesting that structured language generation capabilities provide an advantageous starting point for reinforcement learning in function calling tasks. We will release all the code, models and dataset to benefit the community.

Ссылки и действия