📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning
2025-08-09Авторы:
Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel
**Резюме**
Проблема. Многие изученные приложения Reinforcement Learning (RL) к Large Language Models (LLMs) ограничиваются простыми задачами, такими как математическое обучение или однократное генерирование кода. Эти задачи, хотя и имитируют многократный диалог, являются неэффективными, так как окружение не оказывает влиятельного в suggestions. Это ударно ставит их вразрез с реальными задачами, например, сложной работой в области программного обеспечения, требующей многоэтапного взаимодействия в статической среде, которая отвечает на каждое действие агента с значительными откликами.
Решение. Мы применяем модифицированный Decoupled Advantage Policy Optimization (DAPO) алгоритм для обучения агента, основанного на Qwen2.5-72B-Instruct, для решения реальных задач программного обеспечения. Этот подход увеличивает успешность агента на SWE-bench Verified от 20% до 39%, а на SWE-rebench, агент показывает результаты, которые матчируют или превосходят соревнующиеся опен-вестовые модели, такие как DeepSeek-V3-0324 и Qwen3-235B-A22B, при использовании одного скелета.
Выводы. Наш подход демонстрирует успешное применение RL к задачам многократного диалога в статических, сильно зависимых от состояния средах, таких как программное обеспечение. Это открывает путь к развитию более сильных автономных агентов для решения сложных задач с помощью открытых моделей.
Annotation:
Research on applications of Reinforcement Learning (RL) to Large Language
Models (LLMs) has mostly been focused on single-turn problems, such as
mathematical reasoning or single-shot code generation. While these problems can
be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate
case of multi-turn interaction where the environment provides no feedback. This
contrasts with many real-world domains, such as software engineering (SWE),
which require rich multi-turn interacti...