Tool-integrated Reinforcement Learning for Repo Deep Search

2508.03012v2 cs.SE, cs.AI 2025-08-09

Авторы:

Zexiong Ma, Chao Peng, Qunhong Zeng, Pengfei Gao, Yanzhen Zou, Bing Xie

Резюме на русском

**Резюме** В статье предлагается решение проблемы issue localization — определения мест в коде, которые требуют изменений для устранения проблем в программном обеспечении. Эта задача требует высокого уровня логического разума и преодоления семантического разрыва между естественным языком описаний проблем и структурой кода. Особенно сложная оказывается задача Repo Deep Search, когда требуется эффективное использование различных инструментов поиска в репозитории в рамках многошагового процесса рассуждения и навигации. Для решения этой проблемы предложен фреймворк ToolTrain, который сочетает в себе супервизированное оптимальное тренирование и реинфорсмент с приемом отклонений. Это позволяет лучше обучить трансформеры для эффективного использования реплиза-инструментов во время процесса запроса. Исследования показали, что эта модель достигает лидирующих результатов на задаче function-level localization, превосходя даже Claude-3.7. Выводы указывают, что улучшение локализации может значительно повысить эффективность автоматизированных процессов в разработке программного обеспечения.

Abstract

Issue localization, the process of identifying code locations that need modification to resolve software issues, is a critical yet challenging task in software development. The semantic gap between natural language issue descriptions and faulty code requires complex multi-hop reasoning through code dependencies. Existing LLM-based agents attempt to address this by integrating repository retrieval tools. However, this transforms issue localization into a demanding task we call Repo Deep Search, which requires the LLM to effectively utilize various repository retrieval tools throughout a multi-step reasoning and navigation process. To tackle this challenge, we present ToolTrain, a two-stage tool-integrated training framework combining rejection-sampled supervised fine-tuning and tool-integrated reinforcement learning to enhance LLMs' ability to use retrieval tools for issue localization. Experimental results show that ToolTrain-trained models achieve state-of-the-art performance, with our 32B model even surpassing Claude-3.7 on function-level localization. The results also show that improved localization performance translates to better end-to-end issue resolution performance. This further demonstrates that training for issue localization is a viable and effective strategy for improving automated software development.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Tool-integrated Reinforcement Learning for Repo Deep Search

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operatio...

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language ...

MANTRA: a Framework for Multi-stage Adaptive Noise TReAtment During Training

Beyond Greenfield: The D3 Framework for AI-Driven Productivity in Brownfield Eng...

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reli...

Навигация