Score Distillation of Flow Matching Models

2509.25127v1 cs.CV, cs.AI, cs.LG 2025-10-01
Авторы:

Mingyuan Zhou, Yi Gu, Huangjie Zheng, Liangchen Song, Guande He, Yizhe Zhang, Wenze Hu, Yinfei Yang

Резюме на русском

## Контекст Генерация высококачественных изображений — одна из наиболее активных областей искусственного интеллекта. Одним из важных аспектов этой области является эффективность в процессе генерации. Несмотря на то, что модели типа diffusion (диффузионные модели) достигли высоких результатов в этой области, они страдают от медлительности процесса итеративной семплирования. Это приводит к затруднениям при использовании этих моделей в реальном времени. **Score distillation** — это техника, которая упрощает процесс генерации, позволяя выполнить его за один или несколько шагов. Появление **flow matching** моделей (моделей соответствия потоков), которые в первую очередь представлялись как альтернативная фреймворк, но позже были доказаны теоретически эквивалентными diffusion моделям при гипотезе Гаусса, повлекло за собой задачу о переносимости техник distillation. Эта работа раскрывает проблему взаимодействия этих двух фреймворков и задает вопрос о том, можно ли применить score distillation так же эффективно к flow matching моделям, как и к diffusion моделям. ## Метод Мы использовали **Bayes' rule** и **conditional expectations** для систематического объединения теории Gaussian diffusion и flow matching моделей. Наша цель — найти способ, который позволит использовать score distillation независимо от изначального фреймворка. Для применения нашего решения к **text-to-image flow matching моделям** (SANA, SD3-Medium, SD3.5-Medium/Large, FLUX.1-dev с DiT бэкбонами) мы провели небольшие адаптации. Эти модели не требуют изменения архитектуры или тюнинга учителя. Мы провели эксперименты в двух режимах: в аналитическом режиме (дата-фри) и в гибридном режиме (дата-авторский). ## Результаты Мы проверили нашу технику на нескольких моделях и получили успешные результаты. Score distillation работает без изменений в архитектуре и требует минимальных дополнительных ресурсов. В режиме data-free мы доказали, что модели могут генерировать качественные изображения за один шаг, что позволяет экономить время и ресурсы. В режиме data-aided мы показали, что данные могут быть эффективно использованы для улучшения качества изображения. ## Значимость Результаты этой работы имеют большое значение в следующих областях: - **Ускорение генерации изображений**: позволяет быстрее получать качественные результаты. - **Универсальность**: техника может использоваться для разных моделей, независимо от их исходного фреймворка. - **Практическое применение**: техника может быть применена в реальном времени, где необходимы быстрые результаты. - **Будущие исследования**: решение открывает путь к дальнейшему усовершенствованию технологий генерации изображений, используя score distillation в разных контекстах. ## Выводы Мы успешно показали, что **score distillation** можно применять к **flow matching** моделям, решая пробл

Abstract

Diffusion models achieve high-quality image generation but are limited by slow iterative sampling. Distillation methods alleviate this by enabling one- or few-step generation. Flow matching, originally introduced as a distinct framework, has since been shown to be theoretically equivalent to diffusion under Gaussian assumptions, raising the question of whether distillation techniques such as score distillation transfer directly. We provide a simple derivation -- based on Bayes' rule and conditional expectations -- that unifies Gaussian diffusion and flow matching without relying on ODE/SDE formulations. Building on this view, we extend Score identity Distillation (SiD) to pretrained text-to-image flow-matching models, including SANA, SD3-Medium, SD3.5-Medium/Large, and FLUX.1-dev, all with DiT backbones. Experiments show that, with only modest flow-matching- and DiT-specific adjustments, SiD works out of the box across these models, in both data-free and data-aided settings, without requiring teacher finetuning or architectural changes. This provides the first systematic evidence that score distillation applies broadly to text-to-image flow matching models, resolving prior concerns about stability and soundness and unifying acceleration techniques across diffusion- and flow-based generators. We will make the PyTorch implementation publicly available.

Ссылки и действия