CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models
2509.24526v1
cs.CV, cs.AI, cs.LG
2025-10-01
Авторы:
Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji, Stefano Ermon
Резюме на русском
#### Контекст
Современные flow map models, такие как Consistency Models (CM) и Mean Flow (MF), используются для эффективного генерирования изображений за несколько шагов, основываясь на решении ОДУ диффузионных моделей. Однако их обучение остается нетривиальным: процесс требует большого объема данных, тщательной настройки параметров и значительных вычислительных ресурсов. Хотя инициализация с помощью предварительно обученного диффузионного моделирования упрощает задачу, она не решает проблемы стабильности и устойчивости обучения. В этом контексте возникает потребность в разработке новых методов, которые могли бы упростить и ускорить обучение, улучшив при этом качество и стабильность результатов.
#### Метод
Мы предлагаем подход **Consistency Mid-Training (CMT)**, который вводит легковесный интермедийный этап между предварительным обучением диффузионной модели и последующим обучением flow map. CMT стремится обучить модель, которая бы эффективно переносила точки из одной точки старта предварительного диффузионного решения до представительной точки, полученной с помощью ОДУ. Этот подход, в отличие от простого предварительного обучения, позволяет получить более стабильную и консистентную начальную точку для последующей последовательной модели. Основной идеей CMT является то, что он не только уменьшает необходимый объем данных и ресурсов сильно, но и улучшает общую эффективность обучения в рамках моделей flow map.
#### Результаты
Мы проверили CMT на трех разных датасетах: CIFAR-10, ImageNet (64x64 и 512x512) и ImageNet (256x256). Эмпирические результаты показали, что CMT достигает состояния лидера с FID 1.97 на CIFAR-10, FID 1.32 на ImageNet 64x64 и FID 1.84 на ImageNet 512x512, используя до 98% меньше данных и GPU-времени по сравнению с CM. На ImageNet 256x256, CMT достигает FID 3.34 за один шаг, при этом шаг по времени обучения сокращается примерно вдвое по сравнению с MF. Эти результаты указывают на то, что CMT является более эффективным и стабильным способом обучения flow map, по сравнению с современными методами.
#### Значимость
CMT может быть применен в различных областях аппликаций, которые используют модели flow map, таких как создание изображений, обработка графики и моделирование данных. Он предлагает не только улучшенные результаты, но и значительное сокращение времени обучения и вычислительных затрат. Изменение парадигмы обучения благодаря CMT может открыть новые возможности для создания более практичных моделей, которые могут быть использованы в реальной жизни, без необходимости значительных вычислительных ресурсов.
#### Выводы
CMT представляет собой новую, эффективную и универсальную мето
Abstract
Flow map models such as Consistency Models (CM) and Mean Flow (MF) enable
few-step generation by learning the long jump of the ODE solution of diffusion
models, yet training remains unstable, sensitive to hyperparameters, and
costly. Initializing from a pre-trained diffusion model helps, but still
requires converting infinitesimal steps into a long-jump map, leaving
instability unresolved. We introduce mid-training, the first concept and
practical method that inserts a lightweight intermediate stage between the
(diffusion) pre-training and the final flow map training (i.e., post-training)
for vision generation. Concretely, Consistency Mid-Training (CMT) is a compact
and principled stage that trains a model to map points along a solver
trajectory from a pre-trained model, starting from a prior sample, directly to
the solver-generated clean sample. It yields a trajectory-consistent and stable
initialization. This initializer outperforms random and diffusion-based
baselines and enables fast, robust convergence without heuristics. Initializing
post-training with CMT weights further simplifies flow map learning.
Empirically, CMT achieves state of the art two step FIDs: 1.97 on CIFAR-10,
1.32 on ImageNet 64x64, and 1.84 on ImageNet 512x512, while using up to 98%
less training data and GPU time, compared to CMs. On ImageNet 256x256, CMT
reaches 1-step FID 3.34 while cutting total training time by about 50% compared
to MF from scratch (FID 3.43). This establishes CMT as a principled, efficient,
and general framework for training flow map models.
Ссылки и действия
Дополнительные ресурсы: