Disentanglement in T-space for Faster and Distributed Training of Diffusion Models with Fewer Latent-states

2508.14413v1 cs.LG, cs.CV 2025-08-22
Авторы:

Samarth Gupta, Raghudeep Gadde, Rui Chen, Aleix M. Martinez

Резюме на русском

#### Контекст Общим горизонтом исследований является развитие методов подавления влияния шума при обучении моделей на основе размытия. Несмотря на то, что размытие является необходимым элементом в генерирующих моделях, традиционно для достижения высокого качества обучения необходимо прибегать к значительному применению шумовых слоев, что приводит к значительному росту объёма данных и времени обучения. Настоящая работа посвящена оптимизации этого процесса, с целью сократить затраты ресурсов и улучшить производительность моделей. #### Метод Методология предлагаемой работы основывается на внедрении дисегментированного подхода в T-space. Авторы выстраивают модель, в которой необходимость в многочисленных временных шагах устраняется благодаря тщательной выборке шумового распределения. Для достижения целей с использованием минимального количества шагов обучения разработан механизм полного дисегментирования в T-space. Модель построена на принципе композиции отдельно обученных моделей, каждая из которых обучается с использованием отдельного шага размытия. Это позволяет сократить затраты на ресурсы и распределить обучение в отдельных подсистемах. #### Результаты Работа представляет экспериментальные данные, подтверждающие эффективность предлагаемого подхода. Модель, построенная на принципе дисегментированного обучения, продемонстрировала 4–6 раз быстреее сходимость по сравнению с традиционными методами. Эти результаты подтверждаются для различных метрик качества и на двух различных датасетах. Таким образом, предлагаемый подход сочетает в себе качественное генерирование и принципы распределённого обучения. #### Значимость Предлагаемый подход имеет широкие области применения, в том числе в области генерирующих моделей, где требуется эффективность, высокая производительность и мгновенная реакция на изменения в данных. Основные преимущества включают сокращение времени обучения, экономию ресурсов и улучшение качества генерируемых изображений. Работа также подчеркивает возможность распространения этого подхода на различные сценарии, включая системы с активной загрузкой и распределённые модели. #### Выводы Предлагаемый подход состоятельно продвигает границы возможностей моделей размытия, доказывая возможность достичь высокого качества генерации с минимальным количеством временных шагов. Результаты экспериментов показали, что этот подход может быть применён для ускорения процесса обучения и распределения модели на несколько подсистем. Будущие исследования будут фокусироваться на оптимизации дисегментированного подхода и рассмотрении более сложных сценариев применения.

Abstract

We challenge a fundamental assumption of diffusion models, namely, that a large number of latent-states or time-steps is required for training so that the reverse generative process is close to a Gaussian. We first show that with careful selection of a noise schedule, diffusion models trained over a small number of latent states (i.e. $T \sim 32$) match the performance of models trained over a much large number of latent states ($T \sim 1,000$). Second, we push this limit (on the minimum number of latent states required) to a single latent-state, which we refer to as complete disentanglement in T-space. We show that high quality samples can be easily generated by the disentangled model obtained by combining several independently trained single latent-state models. We provide extensive experiments to show that the proposed disentangled model provides 4-6$\times$ faster convergence measured across a variety of metrics on two different datasets.

Ссылки и действия