MDNS: Masked Diffusion Neural Sampler via Stochastic Optimal Control
2508.10684v1
cs.LG, stat.ML
2025-08-16
Авторы:
Yuchen Zhu, Wei Guo, Jaemoo Choi, Guan-Horng Liu, Yongxin Chen, Molei Tao
Резюме на русском
#### Контекст
Область исследований, связанная с обучением сетей для выбора сэмплов из дискретных пространств состояний, находится в центре внимания различных научных и практических областей, таких как статистическая физика, машинное обучение и составление комбинаторных задач. В этих областях существует необходимость эффективного генерирования сэмплов по сложной вероятностной массе, которая задана допутной функцией $U$, но обычно известна только в неразрешимой форме, требующей вычисления нормирующего коэффициента. Это делает задачу не только теоретически интересной, но и практически важной. Однако существуют сложности, связанные с высокой размерностью пространства состояний и многомерной структурой распределений, что затрудняет использование традиционных подходов. Данная работа ставит целью разработку универсальной и эффективной модели, которая могла бы быть применена к таким задачам.
#### Метод
Мы предлагаем новый подход, названный Masked Diffusion Neural Sampler (MDNS), который основывается на идеях стохастического управления временных рядов в контексте нейронных сетей. Модель MDNS обучается с целью сопоставления меры двух различных распределений в пространстве состояний. Основная идея заключается в использовании обучения через оптимизацию технических функций потерь, которые моделируют стохастический процесс в классической теории управления. Архитектура модели включает в себя нейросетевые модули, которые учитывают зависимости в данных и динамическое развитие процесса при обучении. Мы используем градиенты по параметрам модели для улучшения обучения в пучках, что позволяет эффективно обрабатывать большие пространства состояний.
#### Результаты
Мы проводили ряд экспериментов, где MDNS была применена к различным типам распределений с различными статистическими свойствами, включая многомерные и мультимодальные. В результате обучения модель показала высокую точность и скорость при генерации сэмплов. Мы сравнивали MDNS с другими методами, такими как Gibbs sampling и другие нейросетевые модели, и показали, что MDNS превосходит их в тех же условиях. Также мы проводили анализ абляций, изучая различные модификации модели, чтобы понять, какие компоненты в ней наиболее важны.
#### Значимость
Разработанная модель показала себя как эффективный инструмент для создания сэмплов в сложных дискретных пространствах. Она может быть применена в статистической физике, машинном обучении, комбинаторных задачах и других областях, где требуется эффективное сэмплирование из сложных вероятностных пространств. MDNS предоставляет улучшенную масштабируемость и точность, что делает
Abstract
We study the problem of learning a neural sampler to generate samples from
discrete state spaces where the target probability mass function
$\pi\propto\mathrm{e}^{-U}$ is known up to a normalizing constant, which is an
important task in fields such as statistical physics, machine learning,
combinatorial optimization, etc. To better address this challenging task when
the state space has a large cardinality and the distribution is multi-modal, we
propose $\textbf{M}$asked $\textbf{D}$iffusion $\textbf{N}$eural
$\textbf{S}$ampler ($\textbf{MDNS}$), a novel framework for training discrete
neural samplers by aligning two path measures through a family of learning
objectives, theoretically grounded in the stochastic optimal control of the
continuous-time Markov chains. We validate the efficiency and scalability of
MDNS through extensive experiments on various distributions with distinct
statistical properties, where MDNS learns to accurately sample from the target
distributions despite the extremely high problem dimensions and outperforms
other learning-based baselines by a large margin. A comprehensive study of
ablations and extensions is also provided to demonstrate the efficacy and
potential of the proposed framework.
Ссылки и действия
Дополнительные ресурсы: