Masked Diffusion Models as Energy Minimization

2509.13866v1 cs.LG, cs.AI, cs.CL 2025-09-19
Авторы:

Sitong Chen, Shen Nie, Jiacheng Sun, Zijin Feng, Zhenguo Li, Ji-Rong Wen, Chongxuan Li

Резюме на русском

## Контекст Маскированные диффузионные модели (Masked Diffusion Models, MDMs) — это мощный класс моделей для генерации данных, основывающийся на поэтапной генерации при помощи оператора диффузии. Эти модели применяются в различных областях, включая генерацию изображений, текста и звука. Однако существуют значительные проблемы в понимании математических принципов, основывающихся на этих моделях. Например, неясно, как модели MDM могут минимизировать различные виды энергии в процессе генерации, а также как можно эффективно оптимизировать стратегии генерации данных. Эти проблемы мотивируют создание новой теоретической модели для улучшения понимания и применения MDM. ## Метод Мы предлагаем новую теоретическую фреймворк, которая интерпретирует MDM в терминах минимизации энергии в контексте дискретного транспорта. Эта модель включает три основных методы минимизации энергии: кинетическая, условная кинетическая и геодезическая энергия. Мы доказываем, что эти формулы энергии интерпретируются как решения теории диффузии в контексте MDM. Более того, мы показываем, что MDM минимизируют эти три энергии при использовании оптимального расписания масок. Мы также предлагаем новую схему оптимизации взаимосвязей между маской и энергией, используя Бета-распределение для параметризации интерполяционного расписания. ## Результаты Мы проводим эксперименты на синтетических и реальных данных, оценивая модели MDM в условиях различных расписаний диффузии и маски. Мы проверяем, насколько эффективно работают новые стратегии минимизации энергии по сравнению с традиционными методами оптимизации. Наши эксперименты показывают, что стратегии, основанные на теории энергии, демонстрируют значительные улучшения в скорости генерации и качестве результатов, особенно в условиях низкого шага диффузии. ## Значимость Наша работа имеет значительное значение для разных областей, включая генерацию изображений, синтез звука и текста. Эта модель позволяет улучшить эффективность генерации данных, особенно в условиях ограниченных ресурсов. Наша модель также может быть применима для других задач, где необходимо минимизировать энергию в процессе генерации. Это дает новые возможности для развития систем глубокого обучения в целом. ## Выводы Мы предлагаем новую теоретическую модель, которая систематически интерпретирует MDM в терминах минимизации энергии. Наши эксперименты показывают, что новые стратегии оптимизации энергии дают значительные улучшения в скорости

Abstract

We present a systematic theoretical framework that interprets masked diffusion models (MDMs) as solutions to energy minimization problems in discrete optimal transport. Specifically, we prove that three distinct energy formulations--kinetic, conditional kinetic, and geodesic energy--are mathematically equivalent under the structure of MDMs, and that MDMs minimize all three when the mask schedule satisfies a closed-form optimality condition. This unification not only clarifies the theoretical foundations of MDMs, but also motivates practical improvements in sampling. By parameterizing interpolation schedules via Beta distributions, we reduce the schedule design space to a tractable 2D search, enabling efficient post-training tuning without model modification. Experiments on synthetic and real-world benchmarks demonstrate that our energy-inspired schedules outperform hand-crafted baselines, particularly in low-step sampling settings.

Ссылки и действия