Dynamic Classifier-Free Diffusion Guidance via Online Feedback
2509.16131v2
cs.LG, cs.CV
2025-09-23
Авторы:
Pinelopi Papalampidi, Olivia Wiles, Ira Ktena, Aleksandar Shtedritski, Emanuele Bugliarello, Ivana Kajic, Isabela Albuquerque, Aida Nematzadeh
Резюме на русском
#### Контекст
Текст-to-имаже (T2I) диффузионные модели стали основополагающим инструментом в генерировании качественных изображений по текстовым описаниям. Одной из ключевых техник, позволяющих улучшить алгоритмы генерации, является **Classifier-Free Guidance (CFG)**. Эта техника позволяет контролировать точность и стиль изображения, устанавливая "гибкость" между семантическим содержанием (выраженным в тексте) и визуальным стилем (выраженным в изображении). Однако существующие подходы к CFG основываются на статическом выборе гибкости (guidance scale), что приводит к недостаткам в гибкости и настройке под конкретные задачи. Наша мотивация заключается в разработке динамического подхода к CFG, который адаптируется к каждому конкретному запросу, улучшая тем самым качество изображений и их соответствие тексту.
#### Метод
Мы предлагаем динамический подход к CFG, который использует **онлайн-обратную связь** из нескольких оценочных моделей для каждого шага диффузионного процесса. Наша архитектура включает в себя несколько задач оценки:
1. **Alignment (аналогия с CLIP)**: Модель оценивает, насколько хорошо изображение соответствует тексту.
2. **Fidelity (относительная ценность)**: Дискриминатор оценивает качество генерируемых изображений.
3. **Human Preference Reward Model**: Модель оценивает предпочтения пользователей в терминах качества и целесообразности изображения.
Через этот подход мы можем вычислить оптимальный CFG-скалирующий фактор для каждого шага диффузионного процесса. Мы применяем *greedy search*, чтобы выбирать наилучший CFG-скалирующий фактор в реальном времени. Этот подход позволяет гибко адаптироваться к разным тематикам и запросам.
#### Результаты
Мы проверили нашу модель на нескольких контрольных выборках и сравнили ее с двумя вариантами Imagen (стандартным и без CFG). Мы использовали данные для оценки текстового выражения, визуального качества и точности генерации. Наши результаты показали:
- **Улучшение текстового выражения**: Динамический CFG показал значительное улучшение в точности текстового описания изображений.
- **Повышение визуального качества**: Мы наблюдаем более точные и четкие изображения, особенно в сложных генерируемых сценах.
- **Улучшение text-to-image rendering**: Наш подход позволил значительно повысить точность в генерации изображений, которые включают текст в сценах.
- **Улучшение численного рассуждения**: Модель демонстрирует значительное улучшение в понимании и генерировании числовых сценариев.
#### Значимость
Наша модель имеет широкие применения в генерировании изображений, в частности в следующи
Abstract
Classifier-free guidance (CFG) is a cornerstone of text-to-image diffusion
models, yet its effectiveness is limited by the use of static guidance scales.
This "one-size-fits-all" approach fails to adapt to the diverse requirements of
different prompts; moreover, prior solutions like gradient-based correction or
fixed heuristic schedules introduce additional complexities and fail to
generalize. In this work, we challeng this static paradigm by introducing a
framework for dynamic CFG scheduling. Our method leverages online feedback from
a suite of general-purpose and specialized small-scale latent-space
evaluations, such as CLIP for alignment, a discriminator for fidelity and a
human preference reward model, to assess generation quality at each step of the
reverse diffusion process. Based on this feedback, we perform a greedy search
to select the optimal CFG scale for each timestep, creating a unique guidance
schedule tailored to every prompt and sample. We demonstrate the effectiveness
of our approach on both small-scale models and the state-of-the-art Imagen 3,
showing significant improvements in text alignment, visual quality, text
rendering and numerical reasoning. Notably, when compared against the default
Imagen 3 baseline, our method achieves up to 53.8% human preference win-rate
for overall preference, a figure that increases up to to 55.5% on prompts
targeting specific capabilities like text rendering. Our work establishes that
the optimal guidance schedule is inherently dynamic and prompt-dependent, and
provides an efficient and generalizable framework to achieve it.
Ссылки и действия
Дополнительные ресурсы: