Disentanglement in T-space for Faster and Distributed Training of Diffusion Models with Fewer Latent-states
2508.14413v1
cs.LG, cs.CV
2025-08-22
Авторы:
Samarth Gupta, Raghudeep Gadde, Rui Chen, Aleix M. Martinez
Резюме на русском
#### Контекст
Общим горизонтом исследований является развитие методов подавления влияния шума при обучении моделей на основе размытия. Несмотря на то, что размытие является необходимым элементом в генерирующих моделях, традиционно для достижения высокого качества обучения необходимо прибегать к значительному применению шумовых слоев, что приводит к значительному росту объёма данных и времени обучения. Настоящая работа посвящена оптимизации этого процесса, с целью сократить затраты ресурсов и улучшить производительность моделей.
#### Метод
Методология предлагаемой работы основывается на внедрении дисегментированного подхода в T-space. Авторы выстраивают модель, в которой необходимость в многочисленных временных шагах устраняется благодаря тщательной выборке шумового распределения. Для достижения целей с использованием минимального количества шагов обучения разработан механизм полного дисегментирования в T-space. Модель построена на принципе композиции отдельно обученных моделей, каждая из которых обучается с использованием отдельного шага размытия. Это позволяет сократить затраты на ресурсы и распределить обучение в отдельных подсистемах.
#### Результаты
Работа представляет экспериментальные данные, подтверждающие эффективность предлагаемого подхода. Модель, построенная на принципе дисегментированного обучения, продемонстрировала 4–6 раз быстреее сходимость по сравнению с традиционными методами. Эти результаты подтверждаются для различных метрик качества и на двух различных датасетах. Таким образом, предлагаемый подход сочетает в себе качественное генерирование и принципы распределённого обучения.
#### Значимость
Предлагаемый подход имеет широкие области применения, в том числе в области генерирующих моделей, где требуется эффективность, высокая производительность и мгновенная реакция на изменения в данных. Основные преимущества включают сокращение времени обучения, экономию ресурсов и улучшение качества генерируемых изображений. Работа также подчеркивает возможность распространения этого подхода на различные сценарии, включая системы с активной загрузкой и распределённые модели.
#### Выводы
Предлагаемый подход состоятельно продвигает границы возможностей моделей размытия, доказывая возможность достичь высокого качества генерации с минимальным количеством временных шагов. Результаты экспериментов показали, что этот подход может быть применён для ускорения процесса обучения и распределения модели на несколько подсистем. Будущие исследования будут фокусироваться на оптимизации дисегментированного подхода и рассмотрении более сложных сценариев применения.
Abstract
We challenge a fundamental assumption of diffusion models, namely, that a
large number of latent-states or time-steps is required for training so that
the reverse generative process is close to a Gaussian. We first show that with
careful selection of a noise schedule, diffusion models trained over a small
number of latent states (i.e. $T \sim 32$) match the performance of models
trained over a much large number of latent states ($T \sim 1,000$). Second, we
push this limit (on the minimum number of latent states required) to a single
latent-state, which we refer to as complete disentanglement in T-space. We show
that high quality samples can be easily generated by the disentangled model
obtained by combining several independently trained single latent-state models.
We provide extensive experiments to show that the proposed disentangled model
provides 4-6$\times$ faster convergence measured across a variety of metrics on
two different datasets.
Ссылки и действия
Дополнительные ресурсы: