CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

2509.24526v1 cs.CV, cs.AI, cs.LG 2025-10-01
Авторы:

Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji, Stefano Ermon

Резюме на русском

#### Контекст Современные flow map models, такие как Consistency Models (CM) и Mean Flow (MF), используются для эффективного генерирования изображений за несколько шагов, основываясь на решении ОДУ диффузионных моделей. Однако их обучение остается нетривиальным: процесс требует большого объема данных, тщательной настройки параметров и значительных вычислительных ресурсов. Хотя инициализация с помощью предварительно обученного диффузионного моделирования упрощает задачу, она не решает проблемы стабильности и устойчивости обучения. В этом контексте возникает потребность в разработке новых методов, которые могли бы упростить и ускорить обучение, улучшив при этом качество и стабильность результатов. #### Метод Мы предлагаем подход **Consistency Mid-Training (CMT)**, который вводит легковесный интермедийный этап между предварительным обучением диффузионной модели и последующим обучением flow map. CMT стремится обучить модель, которая бы эффективно переносила точки из одной точки старта предварительного диффузионного решения до представительной точки, полученной с помощью ОДУ. Этот подход, в отличие от простого предварительного обучения, позволяет получить более стабильную и консистентную начальную точку для последующей последовательной модели. Основной идеей CMT является то, что он не только уменьшает необходимый объем данных и ресурсов сильно, но и улучшает общую эффективность обучения в рамках моделей flow map. #### Результаты Мы проверили CMT на трех разных датасетах: CIFAR-10, ImageNet (64x64 и 512x512) и ImageNet (256x256). Эмпирические результаты показали, что CMT достигает состояния лидера с FID 1.97 на CIFAR-10, FID 1.32 на ImageNet 64x64 и FID 1.84 на ImageNet 512x512, используя до 98% меньше данных и GPU-времени по сравнению с CM. На ImageNet 256x256, CMT достигает FID 3.34 за один шаг, при этом шаг по времени обучения сокращается примерно вдвое по сравнению с MF. Эти результаты указывают на то, что CMT является более эффективным и стабильным способом обучения flow map, по сравнению с современными методами. #### Значимость CMT может быть применен в различных областях аппликаций, которые используют модели flow map, таких как создание изображений, обработка графики и моделирование данных. Он предлагает не только улучшенные результаты, но и значительное сокращение времени обучения и вычислительных затрат. Изменение парадигмы обучения благодаря CMT может открыть новые возможности для создания более практичных моделей, которые могут быть использованы в реальной жизни, без необходимости значительных вычислительных ресурсов. #### Выводы CMT представляет собой новую, эффективную и универсальную мето

Abstract

Flow map models such as Consistency Models (CM) and Mean Flow (MF) enable few-step generation by learning the long jump of the ODE solution of diffusion models, yet training remains unstable, sensitive to hyperparameters, and costly. Initializing from a pre-trained diffusion model helps, but still requires converting infinitesimal steps into a long-jump map, leaving instability unresolved. We introduce mid-training, the first concept and practical method that inserts a lightweight intermediate stage between the (diffusion) pre-training and the final flow map training (i.e., post-training) for vision generation. Concretely, Consistency Mid-Training (CMT) is a compact and principled stage that trains a model to map points along a solver trajectory from a pre-trained model, starting from a prior sample, directly to the solver-generated clean sample. It yields a trajectory-consistent and stable initialization. This initializer outperforms random and diffusion-based baselines and enables fast, robust convergence without heuristics. Initializing post-training with CMT weights further simplifies flow map learning. Empirically, CMT achieves state of the art two step FIDs: 1.97 on CIFAR-10, 1.32 on ImageNet 64x64, and 1.84 on ImageNet 512x512, while using up to 98% less training data and GPU time, compared to CMs. On ImageNet 256x256, CMT reaches 1-step FID 3.34 while cutting total training time by about 50% compared to MF from scratch (FID 3.43). This establishes CMT as a principled, efficient, and general framework for training flow map models.

Ссылки и действия