Stabilizing Long-term Multi-turn Reinforcement Learning with Gated Rewards

2508.10548v1 cs.LG, cs.AI, cs.CL 2025-08-16
Авторы:

Zetian Sun, Dongfang Li, Zhuoen Chen, Yuhuai Qin, Baotian Hu

Резюме на русском

Тема: Stabilizing Long-term Multi-turn Reinforcement Learning with Gated Rewards ## Контекст Длиннострочные задачи в reinforcement learning (RL) часто сталкиваются с проблемой разреженности вознаграждений. Такие задачи требуют многократного взаимодействия с системой, прежде чем достичь целей. Существующие методы формирования наград либо не способны определять полезные непосредственные награды, либо вводят избыточные предположения или требуют подробной декомпозиции задачи. Это приводит к несоответствию между непосредственными наградами и долгосрочными целями, что может привести к ошибкам в формировании политик. Другой подход, основанный на верификации, использует шагающие критики для формирования наград, но даже здесь могут возникнуть проблемы с гибридностью между непосредственными наградами и долгосрочными целями. Мы сосредоточились на области программного обеспечения (SWE), где многократное взаимодействие и верификация играют ключевую роль. Целью нашего исследования является стабилизация многократных задач RL через более эффективное формирование наград. ## Метод Мы предлагаем SWE-oriented RL Framework, который объединяет несколько ключевых компонентов: поддержку многократного взаимодействия, тонкую настройку ре wards, а также интеграцию с docker-based execution. Для решения проблемы разреженности наград мы предлагаем Gated Reward Accumulation (G-RA), метод, который ограничивает формирование непосредственных наград, пока долгосрочная награда не достигнет заданного порога. Это позволяет избежать быстрого изменения поведения агента и обеспечить стабильное оптимизационное поведение. Мы также предоставляем гибкую архитектуру для настройки наград, что позволяет адаптировать решение к разным задачам в SWE. ## Результаты Мы проверили G-RA на двух реалистичных SWE-задачах: Verified и kBench. Результаты показали, что метод G-RA существенно улучшил процент успешных завершений задач: с 47.6% до 93.8% для Verified и с 22.0% до 86.0% для kBench. Также обнаружено, что выполнение политик стало более стабильным, не испытывая деградации, что характерно для разреженных наград. Эти результаты свидетельствуют о том, что G-RA успешно решает проблему разреженности наград, обеспечивая более стабильное и эффективное оптимизационное поведение. ## Значимость Наш подход может быть применен в различных SWE-задачах, где требуется многократное взаимодействие и верификация. Он предоставляет значительные преимущества по сравнению с традиционными методами, такими как улучшенная стабильность политик, увеличенные успешные завершения задач и сниженная вероятность ошибок. Этот подход также открывает новые возможности для применения RL в слож

Abstract

Reward sparsity in long-horizon reinforcement learning (RL) tasks remains a significant challenge, while existing outcome-based reward shaping struggles to define meaningful immediate rewards without introducing bias or requiring explicit task decomposition. Alternatively, verification-based reward shaping uses stepwise critics, but misalignment between immediate rewards and long-term objectives can lead to reward hacking and suboptimal policies. In this work, we address this problem in the context of software engineering (SWE) tasks, where multi-turn reasoning and rule-based verification are critical. We introduce the SWE-oriented RL Framework, a unified system supporting multi-turn interaction, docker-based execution, and customizable reward functions. Additionally, we propose Gated Reward Accumulation (G-RA), a novel method that accumulates immediate rewards only when high-level (long-term) rewards meet a predefined threshold, ensuring stable RL optimization. Experiments on SWE-bench Verified and kBench demonstrate that G-RA leads to an increase in completion rates (47.6\% \rightarrow 93.8\% and 22.0\% \rightarrow 86.0\%) and modification rates (19.6\% \rightarrow 23.8\% and 12.0\% \rightarrow 42.0\%), while avoiding policy degradation caused by reward misalignment. Our findings highlight the importance of balanced reward accumulation in long-horizon RL and provide a practical solution.

Ссылки и действия