Exploring Superior Function Calls via Reinforcement Learning
2508.05118v1
cs.LG, cs.AI, cs.CL
2025-08-09
Авторы:
Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Развертывание крупных языковых моделей (LLM) в реальных приложениях требует эффективных возможностей вызывать функции, что является ключевым фактором для их функциональности. Однако существующие подходы обучения не приводят к появлению устойчивых стратегий вывода, необходимых для этих задач. Традиционные методы, такие как супервизорское тонкое настройка (supervised fine-tuning), часто приводят к моделям, которые основываются на поверхностном поиске закономерностей, не способных обеспечить глубокое понимание контекста. Аналогично, стандартные методы обучения с подкреплением (reinforcement learning) сталкиваются с серьезными трудностями из-за высокой размерности пространства функциональных вызовов, что делает их неэффективными в обработке сложных структурированных задач.
Три основных проблемы оказывают влияние на качество вызова функций в существующих моделях: недостаточное исследование пространства политик (policy space) во время обучения, отсутствие структурированного логического вывода в цепочках мыслей (chain-of-thought generation) и неадекватная проверка параметров, извлекаемых из запросов. Эти проблемы становятся критичными в контексте сложных сценариев, требующих вызова нескольких функций, где точность и корректность вывода имеют решающее значение.
Настоящее исследование предлагает новую платформу, основанную на обучении с подкреплением, которая специально разработана для решения этих проблем. Она использует стратегическую энтропию для оптимизации политик взаимодействия между группами, что позволяет достичь более глубокого и эффективного исследования пространства функциональных вызовов. Метод также адресует необходимость в высококачественных данных для обучения, создавая их через итеративную процедуру проверки с использованием моделей LLM и валидации с помощью абстрактных синтаксических деревьев (abstract syntax trees).
## ПРЕДЛОЖЕННЫЙ МЕТОД
Предложенный метод основывается на новой рамке работы для обучения с подкреплением, направленной на оптимизацию групповых политик с использованием стратегического поиска по энтропии. Эта стратегия позволяет эффективнее исследовать пространство функциональных вызовов, обеспечивая глубокое понимание контекста и структурированное принятие решений.
Архитектура работы состоит из двух основных этапов подготовки данных. На первом этапе, модель LLM используется для создания высококачественных образцов данных, которые затем проверяются с помощью абстрактного синтаксического дерева для обеспечения точности и логичности. Это гарантирует, что данные для обучения будут качественными и соответствовать требованиям сложного функционального вызова.
На втором этапе, модель обучается с помощью специально разработанного алгоритма обучения с подкреплением, который использует стратегическую энтропию для повышения эффективности исследования пространства политик. Этот подход позволяет модели избегать поверхностных решений и развивать более глубокие стратегии вывода.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки эффективности предложенного метода проведены эксперименты на Berkeley Function Calling Leaderboard. Результаты показывают, что предложенный метод достигает 86.02% общей точности, превосходя стандартные методы GRPO на 6% в сложных множественных сценариях функциональных вызовов. Это показывает высокую эффективность метода в решении сложных задач.
Кроме того, предложенный метод показывает особую эффективность на моделях, предварительно обученных на кодовых данных. Это указывает на то, что возможности генерации структурированного языка являются преимущественным фактором для успешного применения обучения с подкреплением в задачах функционального вызова.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предложенный метод имеет широкое применение в реальных сценариях использования LLMs, особенно в областях, требующих высокой точности вызова функций, таких как разработка программного обеспечения, автоматизация процессов и поддержка пользователей. Преимущества этого метода включают улучшенную точность, глубокий вывод и возможность обработки сложных множественных сценариев, что делает его пригодным для использования в промышленных приложениях.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
Исследование демонстрирует успешное применение стратегического поиска по энтропии для улучшения вызова функций в LLMs. Разработанный метод не только показывает высокую эффективность, но и открывает новые возможности для дальнейшего исследования в области обучения с подкреплением для структурированного вывода. Будущие исследования могут фокусироваться на дальнейшем улучшении качества данных для обучения и расширении областей применения этого метода. Кроме того, релиз кода, моделей и данных для сообщества позволит стимулировать дальнейшее развитие в этой области.
Abstract
Function calling capabilities are crucial for deploying Large Language Models
in real-world applications, yet current training approaches fail to develop
robust reasoning strategies. Supervised fine-tuning produces models that rely
on superficial pattern matching, while standard reinforcement learning methods
struggle with the complex action space of structured function calls. We present
a novel reinforcement learning framework designed to enhance group relative
policy optimization through strategic entropy based exploration specifically
tailored for function calling tasks. Our approach addresses three critical
challenges in function calling: insufficient exploration during policy
learning, lack of structured reasoning in chain-of-thought generation, and
inadequate verification of parameter extraction. Our two-stage data preparation
pipeline ensures high-quality training samples through iterative LLM evaluation
and abstract syntax tree validation. Extensive experiments on the Berkeley
Function Calling Leaderboard demonstrate that this framework achieves
state-of-the-art performance among open-source models with 86.02\% overall
accuracy, outperforming standard GRPO by up to 6\% on complex multi-function
scenarios. Notably, our method shows particularly strong improvements on
code-pretrained models, suggesting that structured language generation
capabilities provide an advantageous starting point for reinforcement learning
in function calling tasks. We will release all the code, models and dataset to
benefit the community.
Ссылки и действия
Дополнительные ресурсы: