ToolGrad: Efficient Tool-use Dataset Generation with Textual "Gradients"

2508.04086v1 cs.CL 2025-08-09

Авторы:

Zhongyi Zhou, Kohei Uehara, Haoyu Zhang, Jingtao Zhou, Lin Gu, Ruofei Du, Zheng Xu, Tatsuya Harada

Резюме на русском

Многие работы, стремящиеся создавать данные для обучения моделей по работе с инструментами, используют последовательный подход: сначала генерируется запрос пользователя, а затем добавляются сложные заметки об использовании инструментов (например, с помощью DFS). Это приводит к высоким затратам и несовершенству генерируемых данных. В статье предлагается инверсный подход: ToolGrad, использующий "текстовые градиенты" для построения корректных цепочек использования инструментов, а затем генерирует соответствующие запросы пользователя. Таким образом, генерируются качественные данные с повышенной эффективностью и низкой стоимостью. Генерируемый набор данных ToolGrad-5k демонстрирует успех моделей, обученных на нем, при сравнении с базовыми данными и проприетарными глубокими нейросетевыми моделями, в том числе на неизвестных наборах данных (OOD).

Abstract

Prior work synthesizes tool-use LLM datasets by first generating a user query, followed by complex tool-use annotations like DFS. This leads to inevitable annotation failures and low efficiency in data generation. We introduce ToolGrad, an agentic framework that inverts this paradigm. ToolGrad first constructs valid tool-use chains through an iterative process guided by textual "gradients", and then synthesizes corresponding user queries. This "answer-first" approach led to ToolGrad-5k, a dataset generated with more complex tool use, lower cost, and 100% pass rate. Experiments show that models trained on ToolGrad-5k outperform those on expensive baseline datasets and proprietary LLMs, even on OOD benchmarks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ToolGrad: Efficient Tool-use Dataset Generation with Textual "Gradients"

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Nexus: Higher-Order Attention Mechanisms in Transformers

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

ClusterFusion: Hybrid Clustering with Embedding Guidance and LLM Adaptation

SQuARE: Structured Query & Adaptive Retrieval Engine For Tabular Formats

RapidUn: Influence-Driven Parameter Reweighting for Efficient Large Language Mod...

Навигация