BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models
2509.06040v2
cs.CV, cs.AI, cs.LG
2025-09-10
Авторы:
Yuming Li, Yikai Wang, Yuying Zhu, Zhongyu Zhao, Ming Lu, Qi She, Shanghang Zhang
Резюме на русском
#################################
## Контекст
#################################
В последние годы наблюдается активное развитие области генерируемых моделей изображений и видео, нацеленных на создание материалов, которые соответствуют предпочтениям пользователей. Одним из ключевых подходов является Gradient-Based Preference Optimization (GRPO), который стремится улучшить согласование генерируемых материалов с потребностями пользователей. Однако существуют значительные проблемы, такие как высокие вычислительные затраты из-за он-политики и многократных сэмплирований в соответствии с разными политиками (SDE sampling steps). Более того, методы GRPO часто сталкиваются с проблемами стабильности обучения, возникающими из-за скудных наград. Наша мотивация заключается в разработке более эффективного и стабильного метода GRPO, уменьшающего затраты на вычисления и улучшающего итоговый результат.
#################################
## Метод
#################################
Мы предлагаем BranchGRPO, новый подход, который вводит схему отделения ветвей (branch sampling) для улучшения процесса сэмплирования по разным политикам (SDE sampling). Главная идея заключается в том, чтобы совместно использовать вычисления для общих префиксов ветвей и удалять низконаградные пути, а также ненужные глубины. Это позволяет снизить затраты на обучение и сэмплирование за один шаг, при этом сохраняя или даже улучшая многообразие исследований. Метод BranchGRPO также включает новую систему вычисления прироста (tree-based advantage estimator), которая включает в себя многоуровневые награды, и стратегии сокращения ненужных ветвей для ускорения обучения.
#################################
## Результаты
#################################
Для проверки BranchGRPO проведены эксперименты на задачах предпочтений в области изображений и видео. Сравнивая результаты с традиционными методами GRPO, BranchGRPO показывает повышение показателей согласования пользовательских предпочтений на 16%, при этом снижая затраты на обучение в 2 раза. Это достигается благодаря эффективной структуре ветвей и оптимизации процесса сэмплирования. Таким образом, BranchGRPO доказывает свою эффективность в сокращении вычислительных затрат, улучшении стабильности обучения и повышении качества результатов.
#################################
## Значимость
#################################
Результаты BranchGRPO демонстрируют его потенциал в различных областях генерируемых моделей, таких как контрольный процесс развития системы при помощи генерируемых моделей изображений и видео. Этот подход может отлично подходить для задач создания анимации или дизайна, где требуется высокая степень точности в соответствии с пользовательскими предпочтениями. Более того, инновационная структура BranchGRPO способствует устойчивости обучения и сокращению ресурсоемкости, что делает его привлекательным для применения в отраслях, где высокая эффективность и дешевизна
Abstract
Recent advancements in aligning image and video generative models via GRPO
have achieved remarkable gains in enhancing human preference alignment.
However, these methods still face high computational costs from on-policy
rollouts and excessive SDE sampling steps, as well as training instability due
to sparse rewards. In this paper, we propose BranchGRPO, a novel method that
introduces a branch sampling policy updating the SDE sampling process. By
sharing computation across common prefixes and pruning low-reward paths and
redundant depths, BranchGRPO substantially lowers the per-update compute cost
while maintaining or improving exploration diversity. This work makes three
main contributions: (1) a branch sampling scheme that reduces rollout and
training cost; (2) a tree-based advantage estimator incorporating dense
process-level rewards; and (3) pruning strategies exploiting path and depth
redundancy to accelerate convergence and boost performance. Experiments on
image and video preference alignment show that BranchGRPO improves alignment
scores by 16% over strong baselines, while cutting training time by 50%.
Ссылки и действия
Дополнительные ресурсы: