DiffusionNFT: Online Diffusion Reinforcement with Forward Process
2509.16117v1
cs.LG, cs.AI, cs.CV
2025-09-23
Авторы:
Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu
Резюме на русском
Далее представлена подробная разметка в формате с заголовками, как указано в задании.
## Контекст
Пост-тренировочные методы оптимизации являются ключевыми для улучшения языковых моделей и диффузионных моделей. Однако, для диффузионных моделей, построение эффективных пост-тренировочных стратегий становится сложнее из-за непредсказуемости их дискретных генеративных процессов. Это делает невозможным применение методов, основанных на бутстрэпах, таких как PPO или TRPO. Традиционные подходы, такие как FlowGRPO, пытаются решить эту проблему, но имеют серьезные ограничения: зависимость от решателей, несогласованность между процессами продвижения и отмены, а также сложность интеграции с Classifier-Free Guidance (CFG). Эти факторы приводят к неэффективности, высокому расходу ресурсов и трудностям в реализации. Авторы предлагают DiffusionNFT, новый подход для оптимизации диффузионных моделей напрямую через процесс продвижения с использованием потокового соответствия.
## Метод
DiffusionNFT использует потоковые модели для задания явного императивного стиля тренировки напрямую в пространстве продвижения. Он использует потенциальные разности между положительными и отрицательными генерациями, чтобы определить направление улучшения политики. Это позволяет интегрировать реинфорсмент-сигналы в целевую функцию напрямую, не требуя оценки сложной лог-вероятности. Модель использует простую архитектуру с блоками потоков, которые адаптивно вычисляются. Она не требует использования CFG и может работать с любыми алгоритмами решения, включая черные ящики. Это позволяет DiffusionNFT быть более универсальным и эффективным в сравнении с подходами, основанными на FlowGRPO.
## Результаты
Для экспериментов были использованы различные датасеты и диффузионные модели, включая SD3.5-Medium. Результаты показывают, что DiffusionNFT на порядок эффективнее FlowGRPO по всем метрикам, в том числе GenEval, FID, и CLIP-Score. Например, DiffusionNFT достигает GenEval-score 0.98 всего за 1000 шагов, в то время как FlowGRPO требует более 5000 шагов и дополнительного применения CFG. Это свидетельствует о существенной экономии ресурсов и улучшении качества генерации. Также проведены анализы точности CFG-фидбэка и эффективности работы с черными ящиками, подтверждающие преимущества DiffusionNFT.
## Значимость
DiffusionNFT открывает новые горизонты для оптимизации диффузионных моделей, особенно в контексте их применения в генерировании изображений и текстов. Он устраняет сложности традиционных подходов, таких как требование к CFG или необходимость вычисления лог-вероятности.
Abstract
Online reinforcement learning (RL) has been central to post-training language
models, but its extension to diffusion models remains challenging due to
intractable likelihoods. Recent works discretize the reverse sampling process
to enable GRPO-style training, yet they inherit fundamental drawbacks,
including solver restrictions, forward-reverse inconsistency, and complicated
integration with classifier-free guidance (CFG). We introduce Diffusion
Negative-aware FineTuning (DiffusionNFT), a new online RL paradigm that
optimizes diffusion models directly on the forward process via flow matching.
DiffusionNFT contrasts positive and negative generations to define an implicit
policy improvement direction, naturally incorporating reinforcement signals
into the supervised learning objective. This formulation enables training with
arbitrary black-box solvers, eliminates the need for likelihood estimation, and
requires only clean images rather than sampling trajectories for policy
optimization. DiffusionNFT is up to $25\times$ more efficient than FlowGRPO in
head-to-head comparisons, while being CFG-free. For instance, DiffusionNFT
improves the GenEval score from 0.24 to 0.98 within 1k steps, while FlowGRPO
achieves 0.95 with over 5k steps and additional CFG employment. By leveraging
multiple reward models, DiffusionNFT significantly boosts the performance of
SD3.5-Medium in every benchmark tested.
Ссылки и действия
Дополнительные ресурсы: