MDNS: Masked Diffusion Neural Sampler via Stochastic Optimal Control

2508.10684v1 cs.LG, stat.ML 2025-08-16
Авторы:

Yuchen Zhu, Wei Guo, Jaemoo Choi, Guan-Horng Liu, Yongxin Chen, Molei Tao

Резюме на русском

#### Контекст Область исследований, связанная с обучением сетей для выбора сэмплов из дискретных пространств состояний, находится в центре внимания различных научных и практических областей, таких как статистическая физика, машинное обучение и составление комбинаторных задач. В этих областях существует необходимость эффективного генерирования сэмплов по сложной вероятностной массе, которая задана допутной функцией $U$, но обычно известна только в неразрешимой форме, требующей вычисления нормирующего коэффициента. Это делает задачу не только теоретически интересной, но и практически важной. Однако существуют сложности, связанные с высокой размерностью пространства состояний и многомерной структурой распределений, что затрудняет использование традиционных подходов. Данная работа ставит целью разработку универсальной и эффективной модели, которая могла бы быть применена к таким задачам. #### Метод Мы предлагаем новый подход, названный Masked Diffusion Neural Sampler (MDNS), который основывается на идеях стохастического управления временных рядов в контексте нейронных сетей. Модель MDNS обучается с целью сопоставления меры двух различных распределений в пространстве состояний. Основная идея заключается в использовании обучения через оптимизацию технических функций потерь, которые моделируют стохастический процесс в классической теории управления. Архитектура модели включает в себя нейросетевые модули, которые учитывают зависимости в данных и динамическое развитие процесса при обучении. Мы используем градиенты по параметрам модели для улучшения обучения в пучках, что позволяет эффективно обрабатывать большие пространства состояний. #### Результаты Мы проводили ряд экспериментов, где MDNS была применена к различным типам распределений с различными статистическими свойствами, включая многомерные и мультимодальные. В результате обучения модель показала высокую точность и скорость при генерации сэмплов. Мы сравнивали MDNS с другими методами, такими как Gibbs sampling и другие нейросетевые модели, и показали, что MDNS превосходит их в тех же условиях. Также мы проводили анализ абляций, изучая различные модификации модели, чтобы понять, какие компоненты в ней наиболее важны. #### Значимость Разработанная модель показала себя как эффективный инструмент для создания сэмплов в сложных дискретных пространствах. Она может быть применена в статистической физике, машинном обучении, комбинаторных задачах и других областях, где требуется эффективное сэмплирование из сложных вероятностных пространств. MDNS предоставляет улучшенную масштабируемость и точность, что делает

Abstract

We study the problem of learning a neural sampler to generate samples from discrete state spaces where the target probability mass function $\pi\propto\mathrm{e}^{-U}$ is known up to a normalizing constant, which is an important task in fields such as statistical physics, machine learning, combinatorial optimization, etc. To better address this challenging task when the state space has a large cardinality and the distribution is multi-modal, we propose $\textbf{M}$asked $\textbf{D}$iffusion $\textbf{N}$eural $\textbf{S}$ampler ($\textbf{MDNS}$), a novel framework for training discrete neural samplers by aligning two path measures through a family of learning objectives, theoretically grounded in the stochastic optimal control of the continuous-time Markov chains. We validate the efficiency and scalability of MDNS through extensive experiments on various distributions with distinct statistical properties, where MDNS learns to accurately sample from the target distributions despite the extremely high problem dimensions and outperforms other learning-based baselines by a large margin. A comprehensive study of ablations and extensions is also provided to demonstrate the efficacy and potential of the proposed framework.

Ссылки и действия