BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models

2509.06040v3 cs.CV, cs.AI, cs.LG 2025-09-12
Авторы:

Yuming Li, Yikai Wang, Yuying Zhu, Zhongyu Zhao, Ming Lu, Qi She, Shanghang Zhang

Резюме на русском

## Контекст Современные генерирующие модели изображений и видео, основанные на векторных запросах (Vector-Quantized Diffusion Models, VQDMs), позволяют значительно улучшить качество и совместимость с пользовательскими предпочтениями. Однако, несмотря на эти достижения, существуют проблемы, связанные с высокой стоимостью вычислений, например, из-за необходимости многократных роллаутов и многократных выборок Sample Diffusion Equation (SDE). Более того, обучение таких моделей часто сталкивается с проблемами, такими как узкие зоны натуры и нестабильность процесса обучения, вызванные скудными наградами. Наша мотивация заключается в создании метода, который сможет решить эти проблемы, обеспечив стабильность и эффективность обучения. ## Метод Мы предлагаем BranchGRPO, новую стратегию обновления политик для метода Generative Reward Preference Optimization (GRPO). Основной идеей является введение ветвления в процессе сэмплинга SDE, что позволяет эффективно использовать вычисления и уменьшить время обучения. Мы реализуем две основные стратегии: (1) **дерево-основная схема вычислений**, позволяющая повторно использовать вычисления для общих префиксов при разных ветвлениях, и (2) **приемлемость при урезании**, которая уменьшает расходы на вычисления, урезая низкоконтрастные или раздутые ветви. Благодаря этому, модель становится более эффективной и требует меньше ресурсов для обучения, при этом не теряя в разнообразии эксплорейшена. ## Результаты Мы проводили эксперименты на задачах выравнивания приоритетов между изображениями и видео, используя имеющиеся данные. Наши результаты показали, что BranchGRPO повышает скоры художественного анализа (alignment scores) на 16% в сравнении с сильными базовыми моделями. Более того, время обучения уменьшилось вдвое, что делает BranchGRPO более привлекательным для реальных приложений. Сравнительные эксперименты с другими методами подтвердили эффективность нашей модели в сочетании с низким расходом ресурсов. ## Значимость BranchGRPO может быть применено в различных областях, где требуется высокий уровень степени корректности выравнивания между генерируемыми изображениями и пользовательскими предпочтениями, таких как редактирование изображений, контент-генерация и видео-монтаж. Преимуществами модели являются снижение вычислительных затрат, улучшение эффективности и устойчивость при обучении. Эти улучшения могут иметь значительное влияние на развитие глубокого обучения в сферах, где высокая скорость и качество генерации отвечают потребностям пользователей. ## Выводы В итоге, BranchGRPO представляет собой прорыв в сфере GRPO, который улучшает качество выравнивания и эффективность обучения. Наша модель позволяет уменьшить затраты на вычисления б

Abstract

Recent advancements in aligning image and video generative models via GRPO have achieved remarkable gains in enhancing human preference alignment. However, these methods still face high computational costs from on-policy rollouts and excessive SDE sampling steps, as well as training instability due to sparse rewards. In this paper, we propose BranchGRPO, a novel method that introduces a branch sampling policy updating the SDE sampling process. By sharing computation across common prefixes and pruning low-reward paths and redundant depths, BranchGRPO substantially lowers the per-update compute cost while maintaining or improving exploration diversity. This work makes three main contributions: (1) a branch sampling scheme that reduces rollout and training cost; (2) a tree-based advantage estimator incorporating dense process-level rewards; and (3) pruning strategies exploiting path and depth redundancy to accelerate convergence and boost performance. Experiments on image and video preference alignment show that BranchGRPO improves alignment scores by 16% over strong baselines, while cutting training time by 50%.

Ссылки и действия