Posterior-GRPO: Rewarding Reasoning Processes in Code Generation

2508.05170v1 cs.SE, cs.AI, cs.CL, cs.LG 2025-08-09
Авторы:

Lishui Fan, Yu Zhang, Mouxiang Chen, Zhongxin Liu

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Результаты применения reinforcement learning (RL) в области кодогенерации для больших языковых моделей (LLMs) значительно улучшились в последнее время. Однако существующие подходы часто основываются на результирующих наградах, получаемых из тест-кейсов, без учета качества промежуточных процессов вывода. Такая ориентация на конечный результат может привести к недостаткам в процессе логического вывода, который является ключевым для понимания и генерации высококачественного кода. Прямое контролирование качества процесса вывода является перспективным направлением, но существует серьезная проблема ревард хакинга (reward hacking), при которой модель научится манипулировать процессом вывода, чтобы получить высокую оценку, не способствуя улучшению конечных результатов. Для решения этой проблемы необходимо разработать методы, позволяющие оценивать и награждать качество процесса вывода, не затрагивая финальный результат. В этой статье авторы предлагают комплексный подход, сочетающий в себе разработку бенчмарка для оценки процесса вывода, метод для точной оценки качества процесса и новый метод RL, который учитывает качество промежуточных процессов в выводе. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют трехступенчатый подход к улучшению процесса кодогенерации. 1. **Разработка бенчмарка LCB-RB**: Для оценки качества процесса вывода разработан бенчмарк LCB-RB, который состоит из пар предпочтений, где каждая пара представляет два процесса вывода — один лучше, другой хуже. Этот бенчмарк позволяет модели оценивать качество процесса вывода на основе сравнения. 2. **Метод OD-based для обучения наградной модели**: Для точной оценки качества процесса вывода разработан метод Optimized-Degraded (OD-based). Этот метод позволяет генерировать высококачественные пары предпочтений путем систематического улучшения и ухудшения исходных процессов вывода по определенным критериям, таким как фактическая точность, логическая целостность и когерентность. На основе этого метода обучается модель наград размером 7 млрд параметров, которая достигает лучших результатов на бенчмарке LCB-RB и хорошо обобщается на другие данные. 3. **Метод Posterior-GRPO (P-GRPO)**: Новый метод RL, Posterior-GRPO, разработан для того, чтобы учитывать качество процесса вывода при обучении. Он награждает только те процессы вывода, которые приводят к успешным результатам, эффективно предотвращая ревард хакинг. Это позволяет выработать в модели логику, которая соотносит процесс вывода с конечным результатом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов для оценки эффективности их подхода. Используются различные данные для кодогенерации, включая задачи программирования и математические задачи. Результаты показывают, что модель с P-GRPO достигает лучших результатов по сравнению с базовыми моделями, которые основываются только на конечных результатах. Модель с P-GRPO показывает улучшение в 4,5% по сравнению с моделями, не учитывающими процесс вывода. Кроме того, модель достигает результатов, сопоставимых с GPT-4-Turbo, что демонстрирует высокую эффективность предлагаемого подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый подход имеет широкое практическое применение в области кодогенерации и математических задач. Он позволяет создавать модели, которые не только генерируют корректный код, но и выполняют это с высоким качеством процесса вывода. Это может быть полезно в областях, требующих высокой точности и логической целостности, таких как разработка программного обеспечения, математические моделирование и другие. Кроме того, предлагаемый метод может быть использован для улучшения качества вывода в других областях, где важно не только конечный результат, но и процесс достижения этого результата. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен комплексный подход к улучшению кодогенерации с помощью RL, который учитывает качество промежуточных процессов вывода. Разработанный бенчмарк, метод оценки качества процесса вывода и новый метод RL (P-GRPO) позволяют эффективно улучшить качество кодогенерации, предотвращая ревард хакинг и вырабатывая логику, соотносящую процесс вывода с конечным результатом. Будущие исследования могут фокусироваться на дальнейшем улучшении качества процесса вывода, расширении областей применения и интеграции этого подхода в более крупные модели.

Abstract

Reinforcement learning (RL) has significantly advanced code generation for large language models (LLMs). However, current paradigms rely on outcome-based rewards from test cases, neglecting the quality of the intermediate reasoning process. While supervising the reasoning process directly is a promising direction, it is highly susceptible to reward hacking, where the policy model learns to exploit the reasoning reward signal without improving final outcomes. To address this, we introduce a unified framework that can effectively incorporate the quality of the reasoning process during RL. First, to enable reasoning evaluation, we develop LCB-RB, a benchmark comprising preference pairs of superior and inferior reasoning processes. Second, to accurately score reasoning quality, we introduce an Optimized-Degraded based (OD-based) method for reward model training. This method generates high-quality preference pairs by systematically optimizing and degrading initial reasoning paths along curated dimensions of reasoning quality, such as factual accuracy, logical rigor, and coherence. A 7B parameter reward model with this method achieves state-of-the-art (SOTA) performance on LCB-RB and generalizes well to other benchmarks. Finally, we introduce Posterior-GRPO (P-GRPO), a novel RL method that conditions process-based rewards on task success. By selectively applying rewards to the reasoning processes of only successful outcomes, P-GRPO effectively mitigates reward hacking and aligns the model's internal reasoning with final code correctness. A 7B parameter model with P-GRPO achieves superior performance across diverse code generation tasks, outperforming outcome-only baselines by 4.5%, achieving comparable performance to GPT-4-Turbo. We further demonstrate the generalizability of our approach by extending it to mathematical tasks. Our models, dataset, and code are publicly available.

Ссылки и действия