Masked Diffusion Models as Energy Minimization
2509.13866v1
cs.LG, cs.AI, cs.CL
2025-09-19
Авторы:
Sitong Chen, Shen Nie, Jiacheng Sun, Zijin Feng, Zhenguo Li, Ji-Rong Wen, Chongxuan Li
Резюме на русском
## Контекст
Маскированные диффузионные модели (Masked Diffusion Models, MDMs) — это мощный класс моделей для генерации данных, основывающийся на поэтапной генерации при помощи оператора диффузии. Эти модели применяются в различных областях, включая генерацию изображений, текста и звука. Однако существуют значительные проблемы в понимании математических принципов, основывающихся на этих моделях. Например, неясно, как модели MDM могут минимизировать различные виды энергии в процессе генерации, а также как можно эффективно оптимизировать стратегии генерации данных. Эти проблемы мотивируют создание новой теоретической модели для улучшения понимания и применения MDM.
## Метод
Мы предлагаем новую теоретическую фреймворк, которая интерпретирует MDM в терминах минимизации энергии в контексте дискретного транспорта. Эта модель включает три основных методы минимизации энергии: кинетическая, условная кинетическая и геодезическая энергия. Мы доказываем, что эти формулы энергии интерпретируются как решения теории диффузии в контексте MDM. Более того, мы показываем, что MDM минимизируют эти три энергии при использовании оптимального расписания масок. Мы также предлагаем новую схему оптимизации взаимосвязей между маской и энергией, используя Бета-распределение для параметризации интерполяционного расписания.
## Результаты
Мы проводим эксперименты на синтетических и реальных данных, оценивая модели MDM в условиях различных расписаний диффузии и маски. Мы проверяем, насколько эффективно работают новые стратегии минимизации энергии по сравнению с традиционными методами оптимизации. Наши эксперименты показывают, что стратегии, основанные на теории энергии, демонстрируют значительные улучшения в скорости генерации и качестве результатов, особенно в условиях низкого шага диффузии.
## Значимость
Наша работа имеет значительное значение для разных областей, включая генерацию изображений, синтез звука и текста. Эта модель позволяет улучшить эффективность генерации данных, особенно в условиях ограниченных ресурсов. Наша модель также может быть применима для других задач, где необходимо минимизировать энергию в процессе генерации. Это дает новые возможности для развития систем глубокого обучения в целом.
## Выводы
Мы предлагаем новую теоретическую модель, которая систематически интерпретирует MDM в терминах минимизации энергии. Наши эксперименты показывают, что новые стратегии оптимизации энергии дают значительные улучшения в скорости
Abstract
We present a systematic theoretical framework that interprets masked
diffusion models (MDMs) as solutions to energy minimization problems in
discrete optimal transport. Specifically, we prove that three distinct energy
formulations--kinetic, conditional kinetic, and geodesic energy--are
mathematically equivalent under the structure of MDMs, and that MDMs minimize
all three when the mask schedule satisfies a closed-form optimality condition.
This unification not only clarifies the theoretical foundations of MDMs, but
also motivates practical improvements in sampling. By parameterizing
interpolation schedules via Beta distributions, we reduce the schedule design
space to a tractable 2D search, enabling efficient post-training tuning without
model modification. Experiments on synthetic and real-world benchmarks
demonstrate that our energy-inspired schedules outperform hand-crafted
baselines, particularly in low-step sampling settings.
Ссылки и действия
Дополнительные ресурсы: