BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models

2509.06040v2 cs.CV, cs.AI, cs.LG 2025-09-10
Авторы:

Yuming Li, Yikai Wang, Yuying Zhu, Zhongyu Zhao, Ming Lu, Qi She, Shanghang Zhang

Резюме на русском

################################# ## Контекст ################################# В последние годы наблюдается активное развитие области генерируемых моделей изображений и видео, нацеленных на создание материалов, которые соответствуют предпочтениям пользователей. Одним из ключевых подходов является Gradient-Based Preference Optimization (GRPO), который стремится улучшить согласование генерируемых материалов с потребностями пользователей. Однако существуют значительные проблемы, такие как высокие вычислительные затраты из-за он-политики и многократных сэмплирований в соответствии с разными политиками (SDE sampling steps). Более того, методы GRPO часто сталкиваются с проблемами стабильности обучения, возникающими из-за скудных наград. Наша мотивация заключается в разработке более эффективного и стабильного метода GRPO, уменьшающего затраты на вычисления и улучшающего итоговый результат. ################################# ## Метод ################################# Мы предлагаем BranchGRPO, новый подход, который вводит схему отделения ветвей (branch sampling) для улучшения процесса сэмплирования по разным политикам (SDE sampling). Главная идея заключается в том, чтобы совместно использовать вычисления для общих префиксов ветвей и удалять низконаградные пути, а также ненужные глубины. Это позволяет снизить затраты на обучение и сэмплирование за один шаг, при этом сохраняя или даже улучшая многообразие исследований. Метод BranchGRPO также включает новую систему вычисления прироста (tree-based advantage estimator), которая включает в себя многоуровневые награды, и стратегии сокращения ненужных ветвей для ускорения обучения. ################################# ## Результаты ################################# Для проверки BranchGRPO проведены эксперименты на задачах предпочтений в области изображений и видео. Сравнивая результаты с традиционными методами GRPO, BranchGRPO показывает повышение показателей согласования пользовательских предпочтений на 16%, при этом снижая затраты на обучение в 2 раза. Это достигается благодаря эффективной структуре ветвей и оптимизации процесса сэмплирования. Таким образом, BranchGRPO доказывает свою эффективность в сокращении вычислительных затрат, улучшении стабильности обучения и повышении качества результатов. ################################# ## Значимость ################################# Результаты BranchGRPO демонстрируют его потенциал в различных областях генерируемых моделей, таких как контрольный процесс развития системы при помощи генерируемых моделей изображений и видео. Этот подход может отлично подходить для задач создания анимации или дизайна, где требуется высокая степень точности в соответствии с пользовательскими предпочтениями. Более того, инновационная структура BranchGRPO способствует устойчивости обучения и сокращению ресурсоемкости, что делает его привлекательным для применения в отраслях, где высокая эффективность и дешевизна

Abstract

Recent advancements in aligning image and video generative models via GRPO have achieved remarkable gains in enhancing human preference alignment. However, these methods still face high computational costs from on-policy rollouts and excessive SDE sampling steps, as well as training instability due to sparse rewards. In this paper, we propose BranchGRPO, a novel method that introduces a branch sampling policy updating the SDE sampling process. By sharing computation across common prefixes and pruning low-reward paths and redundant depths, BranchGRPO substantially lowers the per-update compute cost while maintaining or improving exploration diversity. This work makes three main contributions: (1) a branch sampling scheme that reduces rollout and training cost; (2) a tree-based advantage estimator incorporating dense process-level rewards; and (3) pruning strategies exploiting path and depth redundancy to accelerate convergence and boost performance. Experiments on image and video preference alignment show that BranchGRPO improves alignment scores by 16% over strong baselines, while cutting training time by 50%.

Ссылки и действия