RAAG: Ratio Aware Adaptive Guidance

2508.03442v1 cs.CV 2025-08-09
Авторы:

Shangwen Zhu, Qianyu Peng, Yuting Hu, Zhantao Yang, Han Zhang, Zhao Pu, Ruili Feng, Fan Cheng

Резюме на русском

Резюме: На момент написания, flow-based generative модели достигли выдающихся результатов в области изображений и видеосинтеза, с использованием адаптивного гайдинга (англ. classifier-free guidance, CFG) в качестве основного инструмента. Однако, недостаточно изучена взаимосвязь гайдинга с разными этапами однородного процесса в оптимизированных для быстроты целях пайплайнах. Мы обнаружили основную проблему — сильная восприимчивость ранних шагов к гайдингу, из-за того, что в этом режиме выражается сильное неоднородное распределение приоритетов между условной и неусловной сигнатурой. Это приводит к сильной ошибке в ранних стадиях. Мы предлагаем Ratio Aware Adaptive Guidance (RAAG), который автоматически адаптирует гайдинг в зависимости от развития отношения приоритетов в ходе синтеза. Метод надежен, легкий в реализации и эффективен, не требуя дополнительных вычислений. Наши эксперименты показали, что новая стратегия дает ускорение до 3 раз при разных моделях и датасетах, при этом сохраняя или улучшая качество генерации, устойчивость и семантическую адекватность. Этот подход является ключевым для достижения быстроты и качества в flow-based generative моделях.

Abstract

Flow-based generative models have recently achieved remarkable progress in image and video synthesis, with classifier-free guidance (CFG) becoming the standard tool for high-fidelity, controllable generation. However, despite their practical success, little is known about how guidance interacts with different stages of the sampling process-especially in the fast, low-step regimes typical of modern flow-based pipelines. In this work, we uncover and analyze a fundamental instability: the earliest reverse steps are acutely sensitive to the guidance scale, owing to a pronounced spike in the relative strength (RATIO) of conditional to unconditional predictions. Through rigorous theoretical analysis and empirical validation, we show that this RATIO spike is intrinsic to the data distribution, independent of the model architecture, and causes exponential error amplification when paired with strong guidance. To address this, we propose a simple, theoretically grounded, RATIO-aware adaptive guidance schedule that automatically dampens the guidance scale at early steps based on the evolving RATIO, using a closed-form exponential decay. Our method is lightweight, requires no additional inference overhead, and is compatible with standard flow frameworks. Experiments across state-of-the-art image (SD3.5, Lumina) and video (WAN2.1) models demonstrate that our approach enables up to 3x faster sampling while maintaining or improving generation quality, robustness, and semantic alignment. Extensive ablation studies further confirm the generality and stability of our schedule across models, datasets, and hyperparameters. Our findings highlight the critical role of stepwise guidance adaptation in unlocking the full potential of fast flow-based generative models.

Ссылки и действия