RAAG: Ratio Aware Adaptive Guidance
2508.03442v1
cs.CV
2025-08-09
Авторы:
Shangwen Zhu, Qianyu Peng, Yuting Hu, Zhantao Yang, Han Zhang, Zhao Pu, Ruili Feng, Fan Cheng
Резюме на русском
Резюме:
На момент написания, flow-based generative модели достигли выдающихся результатов в области изображений и видеосинтеза, с использованием адаптивного гайдинга (англ. classifier-free guidance, CFG) в качестве основного инструмента. Однако, недостаточно изучена взаимосвязь гайдинга с разными этапами однородного процесса в оптимизированных для быстроты целях пайплайнах. Мы обнаружили основную проблему — сильная восприимчивость ранних шагов к гайдингу, из-за того, что в этом режиме выражается сильное неоднородное распределение приоритетов между условной и неусловной сигнатурой. Это приводит к сильной ошибке в ранних стадиях. Мы предлагаем Ratio Aware Adaptive Guidance (RAAG), который автоматически адаптирует гайдинг в зависимости от развития отношения приоритетов в ходе синтеза. Метод надежен, легкий в реализации и эффективен, не требуя дополнительных вычислений. Наши эксперименты показали, что новая стратегия дает ускорение до 3 раз при разных моделях и датасетах, при этом сохраняя или улучшая качество генерации, устойчивость и семантическую адекватность. Этот подход является ключевым для достижения быстроты и качества в flow-based generative моделях.
Abstract
Flow-based generative models have recently achieved remarkable progress in
image and video synthesis, with classifier-free guidance (CFG) becoming the
standard tool for high-fidelity, controllable generation. However, despite
their practical success, little is known about how guidance interacts with
different stages of the sampling process-especially in the fast, low-step
regimes typical of modern flow-based pipelines. In this work, we uncover and
analyze a fundamental instability: the earliest reverse steps are acutely
sensitive to the guidance scale, owing to a pronounced spike in the relative
strength (RATIO) of conditional to unconditional predictions. Through rigorous
theoretical analysis and empirical validation, we show that this RATIO spike is
intrinsic to the data distribution, independent of the model architecture, and
causes exponential error amplification when paired with strong guidance. To
address this, we propose a simple, theoretically grounded, RATIO-aware adaptive
guidance schedule that automatically dampens the guidance scale at early steps
based on the evolving RATIO, using a closed-form exponential decay. Our method
is lightweight, requires no additional inference overhead, and is compatible
with standard flow frameworks. Experiments across state-of-the-art image
(SD3.5, Lumina) and video (WAN2.1) models demonstrate that our approach enables
up to 3x faster sampling while maintaining or improving generation quality,
robustness, and semantic alignment. Extensive ablation studies further confirm
the generality and stability of our schedule across models, datasets, and
hyperparameters. Our findings highlight the critical role of stepwise guidance
adaptation in unlocking the full potential of fast flow-based generative
models.
Ссылки и действия
Дополнительные ресурсы: