Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis

2508.15754v1 cs.CL, cs.AI 2025-08-23
Авторы:

Yufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen

Резюме на русском

## Контекст Бо LLM (large language models) показали свою эффективность в различных рассуждающих задачах, особенно с применением методов цепочки мыслей (chain-of-thought, CoT). Однако, несмотря на эти успехи, LLMs часто сталкиваются с проблемами в выполнении задач, требующих точных вычислений. Такие задачи часто приводят к перебору вариантов или "overthinking", что сказывается на эффективности и точности решений. Tool-Integrated Reasoning (TIR) — это новая подход, включающий внешние инструменты в процесс рассуждения. Он позволяет LLMs использовать специальные инструменты для точных вычислений, уменьшая необходимость в переборе вариантов. Несмотря на это, недостаточно изучена проблема общей эффективности TIR в различных областях. Кроме того, неясно, насколько TIR влияет на улучшение рассуждающего поverья LLMs и на способность к более подробному и структурированному мышлению. Для оценки эффективности TIR в различных сферах рассуждения и изучения его влияния на рассуждающие модели, мы предложили ReasonZoo — широкомасштабный бенчмарк, охватывающий 9 областей рассуждения. Мы также разработали два новых показателя: Performance-Aware Cost (PAC) и Area Under the Performance-Cost Curve (AUC-PCC), для оценки рассуждающей эффективности. ## Метод ReasonZoo — это комплексный бенчмарк, который включает задачи из 9 различных областей рассуждения, например: числовые вычисления, логические задачи, текстовое понимание и т.д. Этот бенчмарк разработан для оценки качества рассуждения LLMs, использующих инструменты в своих рассуждениях. Мы также предложили два новых метрики для оценки рассуждающей эффективности: 1. **Performance-Aware Cost (PAC)** — это метрика, которая измеряет уровень точности рассуждения в зависимости от затраченных ресурсов (например, времени или вычислительных ресурсов). 2. **Area Under the Performance-Cost Curve (AUC-PCC)** — это показатель, отображающий эффективность рассуждения в целом, учитывая как точность, так и затраты на вычисления. Мы применяем эти метрики для оценки различных моделей с и Sans TIR и с TIR, чтобы выявить значимость и влияние инструментов на рассуждающие модели. ## Результаты Мы провели многочисленные эксперименты с различными моделями, определив, насколько TIR влияет на эффективность и точность рассуждений. Наши результаты показали, что TIR-enabled модели (модели с интегрированными инструментами) показывают значительные улучшения в областях математических и нематематических задач по сравнению с моделями без инструментов. Мы также обнаружили, что TIR уменьшает "overthinking", что влечет за собой уменьшение времени обработки и улучшение PAC и AUC-PCC. Это означает, что TIR позволяет моделям принимать более осмысленные решения, с меньшим количеством нен

Abstract

Large Language Models (LLMs) have made significant strides in reasoning tasks through methods like chain-of-thought (CoT) reasoning. However, they often fall short in tasks requiring precise computations. Tool-Integrated Reasoning (TIR) has emerged as a solution by incorporating external tools into the reasoning process. Nevertheless, the generalization of TIR in improving the reasoning ability of LLM is still unclear. Additionally, whether TIR has improved the model's reasoning behavior and helped the model think remains to be studied. We introduce ReasonZoo, a comprehensive benchmark encompassing nine diverse reasoning categories, to evaluate the effectiveness of TIR across various domains. Additionally, we propose two novel metrics, Performance-Aware Cost (PAC) and Area Under the Performance-Cost Curve (AUC-PCC), to assess reasoning efficiency. Our empirical evaluation demonstrates that TIR-enabled models consistently outperform their non-TIR counterparts in both mathematical and non-mathematical tasks. Furthermore, TIR enhances reasoning efficiency, as evidenced by improved PAC and AUC-PCC, indicating reduced overthinking and more streamlined reasoning. These findings underscore the domain-general benefits of TIR and its potential to advance LLM capabilities in complex reasoning tasks.

Ссылки и действия