Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

2508.03501v1 cs.LG, cs.CL, cs.SE 2025-08-09

Авторы:

Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel

Резюме на русском

**Резюме** Проблема. Многие изученные приложения Reinforcement Learning (RL) к Large Language Models (LLMs) ограничиваются простыми задачами, такими как математическое обучение или однократное генерирование кода. Эти задачи, хотя и имитируют многократный диалог, являются неэффективными, так как окружение не оказывает влиятельного в suggestions. Это ударно ставит их вразрез с реальными задачами, например, сложной работой в области программного обеспечения, требующей многоэтапного взаимодействия в статической среде, которая отвечает на каждое действие агента с значительными откликами. Решение. Мы применяем модифицированный Decoupled Advantage Policy Optimization (DAPO) алгоритм для обучения агента, основанного на Qwen2.5-72B-Instruct, для решения реальных задач программного обеспечения. Этот подход увеличивает успешность агента на SWE-bench Verified от 20% до 39%, а на SWE-rebench, агент показывает результаты, которые матчируют или превосходят соревнующиеся опен-вестовые модели, такие как DeepSeek-V3-0324 и Qwen3-235B-A22B, при использовании одного скелета. Выводы. Наш подход демонстрирует успешное применение RL к задачам многократного диалога в статических, сильно зависимых от состояния средах, таких как программное обеспечение. Это открывает путь к развитию более сильных автономных агентов для решения сложных задач с помощью открытых моделей.

Abstract

Research on applications of Reinforcement Learning (RL) to Large Language Models (LLMs) has mostly been focused on single-turn problems, such as mathematical reasoning or single-shot code generation. While these problems can be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate case of multi-turn interaction where the environment provides no feedback. This contrasts with many real-world domains, such as software engineering (SWE), which require rich multi-turn interactions with a stateful environment that responds to each action with a non-trivial observation. To bridge this gap, we demonstrate the successful application of RL to this general regime. Using a modified Decoupled Advantage Policy Optimization (DAPO) algorithm, we train an agent based on Qwen2.5-72B-Instruct to solve real-world software engineering tasks. Our approach increases the agent's success rate on the SWE-bench Verified benchmark from a 20% rejection fine-tuned baseline to 39%, without relying on any teacher models. On SWE-rebench, our agent matches or outperforms leading open-weight models such as DeepSeek-V3-0324 and Qwen3-235B-A22B using an identical scaffolding, offering a viable path toward building more capable autonomous agents for complex real-world problems based on open models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация