Dynamic Classifier-Free Diffusion Guidance via Online Feedback

2509.16131v2 cs.LG, cs.CV 2025-09-23
Авторы:

Pinelopi Papalampidi, Olivia Wiles, Ira Ktena, Aleksandar Shtedritski, Emanuele Bugliarello, Ivana Kajic, Isabela Albuquerque, Aida Nematzadeh

Резюме на русском

#### Контекст Текст-to-имаже (T2I) диффузионные модели стали основополагающим инструментом в генерировании качественных изображений по текстовым описаниям. Одной из ключевых техник, позволяющих улучшить алгоритмы генерации, является **Classifier-Free Guidance (CFG)**. Эта техника позволяет контролировать точность и стиль изображения, устанавливая "гибкость" между семантическим содержанием (выраженным в тексте) и визуальным стилем (выраженным в изображении). Однако существующие подходы к CFG основываются на статическом выборе гибкости (guidance scale), что приводит к недостаткам в гибкости и настройке под конкретные задачи. Наша мотивация заключается в разработке динамического подхода к CFG, который адаптируется к каждому конкретному запросу, улучшая тем самым качество изображений и их соответствие тексту. #### Метод Мы предлагаем динамический подход к CFG, который использует **онлайн-обратную связь** из нескольких оценочных моделей для каждого шага диффузионного процесса. Наша архитектура включает в себя несколько задач оценки: 1. **Alignment (аналогия с CLIP)**: Модель оценивает, насколько хорошо изображение соответствует тексту. 2. **Fidelity (относительная ценность)**: Дискриминатор оценивает качество генерируемых изображений. 3. **Human Preference Reward Model**: Модель оценивает предпочтения пользователей в терминах качества и целесообразности изображения. Через этот подход мы можем вычислить оптимальный CFG-скалирующий фактор для каждого шага диффузионного процесса. Мы применяем *greedy search*, чтобы выбирать наилучший CFG-скалирующий фактор в реальном времени. Этот подход позволяет гибко адаптироваться к разным тематикам и запросам. #### Результаты Мы проверили нашу модель на нескольких контрольных выборках и сравнили ее с двумя вариантами Imagen (стандартным и без CFG). Мы использовали данные для оценки текстового выражения, визуального качества и точности генерации. Наши результаты показали: - **Улучшение текстового выражения**: Динамический CFG показал значительное улучшение в точности текстового описания изображений. - **Повышение визуального качества**: Мы наблюдаем более точные и четкие изображения, особенно в сложных генерируемых сценах. - **Улучшение text-to-image rendering**: Наш подход позволил значительно повысить точность в генерации изображений, которые включают текст в сценах. - **Улучшение численного рассуждения**: Модель демонстрирует значительное улучшение в понимании и генерировании числовых сценариев. #### Значимость Наша модель имеет широкие применения в генерировании изображений, в частности в следующи

Abstract

Classifier-free guidance (CFG) is a cornerstone of text-to-image diffusion models, yet its effectiveness is limited by the use of static guidance scales. This "one-size-fits-all" approach fails to adapt to the diverse requirements of different prompts; moreover, prior solutions like gradient-based correction or fixed heuristic schedules introduce additional complexities and fail to generalize. In this work, we challeng this static paradigm by introducing a framework for dynamic CFG scheduling. Our method leverages online feedback from a suite of general-purpose and specialized small-scale latent-space evaluations, such as CLIP for alignment, a discriminator for fidelity and a human preference reward model, to assess generation quality at each step of the reverse diffusion process. Based on this feedback, we perform a greedy search to select the optimal CFG scale for each timestep, creating a unique guidance schedule tailored to every prompt and sample. We demonstrate the effectiveness of our approach on both small-scale models and the state-of-the-art Imagen 3, showing significant improvements in text alignment, visual quality, text rendering and numerical reasoning. Notably, when compared against the default Imagen 3 baseline, our method achieves up to 53.8% human preference win-rate for overall preference, a figure that increases up to to 55.5% on prompts targeting specific capabilities like text rendering. Our work establishes that the optimal guidance schedule is inherently dynamic and prompt-dependent, and provides an efficient and generalizable framework to achieve it.

Ссылки и действия