📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel

**Резюме** Проблема. Многие изученные приложения Reinforcement Learning (RL) к Large Language Models (LLMs) ограничиваются простыми задачами, такими как математическое обучение или однократное генерирование кода. Эти задачи, хотя и имитируют многократный диалог, являются неэффективными, так как окружение не оказывает влиятельного в suggestions. Это ударно ставит их вразрез с реальными задачами, например, сложной работой в области программного обеспечения, требующей многоэтапного взаимодействия в статической среде, которая отвечает на каждое действие агента с значительными откликами. Решение. Мы применяем модифицированный Decoupled Advantage Policy Optimization (DAPO) алгоритм для обучения агента, основанного на Qwen2.5-72B-Instruct, для решения реальных задач программного обеспечения. Этот подход увеличивает успешность агента на SWE-bench Verified от 20% до 39%, а на SWE-rebench, агент показывает результаты, которые матчируют или превосходят соревнующиеся опен-вестовые модели, такие как DeepSeek-V3-0324 и Qwen3-235B-A22B, при использовании одного скелета. Выводы. Наш подход демонстрирует успешное применение RL к задачам многократного диалога в статических, сильно зависимых от состояния средах, таких как программное обеспечение. Это открывает путь к развитию более сильных автономных агентов для решения сложных задач с помощью открытых моделей.
Annotation:
Research on applications of Reinforcement Learning (RL) to Large Language Models (LLMs) has mostly been focused on single-turn problems, such as mathematical reasoning or single-shot code generation. While these problems can be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate case of multi-turn interaction where the environment provides no feedback. This contrasts with many real-world domains, such as software engineering (SWE), which require rich multi-turn interacti...
ID: 2508.03501v1 cs.LG, cs.CL, cs.SE