Score Distillation of Flow Matching Models
2509.25127v1
cs.CV, cs.AI, cs.LG
2025-10-01
Авторы:
Mingyuan Zhou, Yi Gu, Huangjie Zheng, Liangchen Song, Guande He, Yizhe Zhang, Wenze Hu, Yinfei Yang
Резюме на русском
## Контекст
Генерация высококачественных изображений — одна из наиболее активных областей искусственного интеллекта. Одним из важных аспектов этой области является эффективность в процессе генерации. Несмотря на то, что модели типа diffusion (диффузионные модели) достигли высоких результатов в этой области, они страдают от медлительности процесса итеративной семплирования. Это приводит к затруднениям при использовании этих моделей в реальном времени. **Score distillation** — это техника, которая упрощает процесс генерации, позволяя выполнить его за один или несколько шагов.
Появление **flow matching** моделей (моделей соответствия потоков), которые в первую очередь представлялись как альтернативная фреймворк, но позже были доказаны теоретически эквивалентными diffusion моделям при гипотезе Гаусса, повлекло за собой задачу о переносимости техник distillation. Эта работа раскрывает проблему взаимодействия этих двух фреймворков и задает вопрос о том, можно ли применить score distillation так же эффективно к flow matching моделям, как и к diffusion моделям.
## Метод
Мы использовали **Bayes' rule** и **conditional expectations** для систематического объединения теории Gaussian diffusion и flow matching моделей. Наша цель — найти способ, который позволит использовать score distillation независимо от изначального фреймворка. Для применения нашего решения к **text-to-image flow matching моделям** (SANA, SD3-Medium, SD3.5-Medium/Large, FLUX.1-dev с DiT бэкбонами) мы провели небольшие адаптации. Эти модели не требуют изменения архитектуры или тюнинга учителя. Мы провели эксперименты в двух режимах: в аналитическом режиме (дата-фри) и в гибридном режиме (дата-авторский).
## Результаты
Мы проверили нашу технику на нескольких моделях и получили успешные результаты. Score distillation работает без изменений в архитектуре и требует минимальных дополнительных ресурсов. В режиме data-free мы доказали, что модели могут генерировать качественные изображения за один шаг, что позволяет экономить время и ресурсы. В режиме data-aided мы показали, что данные могут быть эффективно использованы для улучшения качества изображения.
## Значимость
Результаты этой работы имеют большое значение в следующих областях:
- **Ускорение генерации изображений**: позволяет быстрее получать качественные результаты.
- **Универсальность**: техника может использоваться для разных моделей, независимо от их исходного фреймворка.
- **Практическое применение**: техника может быть применена в реальном времени, где необходимы быстрые результаты.
- **Будущие исследования**: решение открывает путь к дальнейшему усовершенствованию технологий генерации изображений, используя score distillation в разных контекстах.
## Выводы
Мы успешно показали, что **score distillation** можно применять к **flow matching** моделям, решая пробл
Abstract
Diffusion models achieve high-quality image generation but are limited by
slow iterative sampling. Distillation methods alleviate this by enabling one-
or few-step generation. Flow matching, originally introduced as a distinct
framework, has since been shown to be theoretically equivalent to diffusion
under Gaussian assumptions, raising the question of whether distillation
techniques such as score distillation transfer directly. We provide a simple
derivation -- based on Bayes' rule and conditional expectations -- that unifies
Gaussian diffusion and flow matching without relying on ODE/SDE formulations.
Building on this view, we extend Score identity Distillation (SiD) to
pretrained text-to-image flow-matching models, including SANA, SD3-Medium,
SD3.5-Medium/Large, and FLUX.1-dev, all with DiT backbones. Experiments show
that, with only modest flow-matching- and DiT-specific adjustments, SiD works
out of the box across these models, in both data-free and data-aided settings,
without requiring teacher finetuning or architectural changes. This provides
the first systematic evidence that score distillation applies broadly to
text-to-image flow matching models, resolving prior concerns about stability
and soundness and unifying acceleration techniques across diffusion- and
flow-based generators. We will make the PyTorch implementation publicly
available.
Ссылки и действия
Дополнительные ресурсы: