Failure Makes the Agent Stronger: Enhancing Accuracy through Structured Reflection for Reliable Tool Interactions

2509.18847v1 cs.CV, cs.AI, cs.CL 2025-09-25
Авторы:

Junhao Su, Yuanliang Wan, Junwei Yang, Hengyu Shi, Tianyang Han, Junfeng Luo, Yurui Qiu

Резюме на русском

## Контекст Область исследования связана с развитием инструментами для улучшения надежности интеракций с тулами в средах с бо LLM. Несмотря на заметные улучшения, существуют значительные трудности в обеспечении устойчивой надёжности в сложных сценариях многократного взаимодействия. Ошибки в таких сценариях часто приводят к неточности вывода, неэффективности и повторному повторению ошибок в последующих шагах. Это исходное состояние мотивирует разработку структурированной методики рефлексии, способной обнаруживать и исправлять ошибки в рамках многошаговых интеракций. ## Метод Методология разработки называется Structured Reflection. Она представляет собой конструктивный подход к обнаружению и исправлению ошибок во время многошаговых интеракций с использованием инструментов. Агент производит подробный анализ того, что пошло не так в предыдущем шаге, выявляет причины неудачи и предлагает выполнить конкретное действие для исправления. Технической основой является использование целевых функций DAPO и GSPO, которые учитывают не только правильность результатов но и структуру стратегии. Затем тренируется агент с использованием штурмовых алгоритмов, направленных на оптимизацию стратегии "Ошибка - Размышление - Исправление". Для эффективного мониторинга качества решений разработана специальная бенчмарк-среда Tool-Reflection-Bench. ## Результаты На экспериментальных задачах были продемонстрированы существенные улучшения в точности и надежности интеракций. Агент структурированной рефлекции показал значительное сокращение количества неудачных вызовов инструментов и увеличение точности после неудачных попыток. Также доказано, что структурированная рефлексия позволяет значительно сократить количество необходимых операций для достижения правильных результатов. Эти результаты были получены при оценке на Tool-Reflection-Bench и BFCL v3. ## Значимость Предложенная методика может быть использована в различных областях, где требуется взаимодействие с инструментами, например, в системах автоматизации, в системах управления проектами и в системах поддержки пользователей. Основные преимущества заключаются в улучшении надёжности, эффективности и уменьшении количества повторных действий. Этот подход может иметь значительное влияние на развитие умных инструментов, улучшая взаимодействие между пользователями и лингвистическими моделями. ## Выводы Результаты исследования подтверждают эффективность структурированной рефлексии в решении ошибок и улучшении надежности интеракций с инструментами. В дальнейшем повышается потенциал для улучшения методологии с помощью более с

Abstract

Tool-augmented large language models (LLMs) are usually trained with supervised imitation or coarse-grained reinforcement learning that optimizes single tool calls. Current self-reflection practices rely on heuristic prompts or one-way reasoning: the model is urged to 'think more' instead of learning error diagnosis and repair. This is fragile in multi-turn interactions; after a failure the model often repeats the same mistake. We propose structured reflection, which turns the path from error to repair into an explicit, controllable, and trainable action. The agent produces a short yet precise reflection: it diagnoses the failure using evidence from the previous step and then proposes a correct, executable follow-up call. For training we combine DAPO and GSPO objectives with a reward scheme tailored to tool use, optimizing the stepwise strategy Reflect, then Call, then Final. To evaluate, we introduce Tool-Reflection-Bench, a lightweight benchmark that programmatically checks structural validity, executability, parameter correctness, and result consistency. Tasks are built as mini trajectories of erroneous call, reflection, and corrected call, with disjoint train and test splits. Experiments on BFCL v3 and Tool-Reflection-Bench show large gains in multi-turn tool-call success and error recovery, and a reduction of redundant calls. These results indicate that making reflection explicit and optimizing it directly improves the reliability of tool interaction and offers a reproducible path for agents to learn from failure.

Ссылки и действия