📚 Саммари научных статей из arXiv

Найдено 43 результатов по запросу 'cs.LG, math.PR' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Anchored Langevin Algorithms

2025-09-26

Авторы:

Mert Gurbuzbalaban, Hoang M. Nguyen, Xicheng Zhang, Lingjiong Zhu

## Контекст Одним из основных задач в машинном обучении является эффективное семплирование из распределений, представляющих собой модели для обработки данных. Одним из популярных подходов является использование методов типа Langevin dynamics, которые позволяют эффективно решать задачи семплирования в высоком размерности. Однако, существуют ограничения. Они не могут семплировать данные, имеющие недифференцируемые компоненты в лог-плотности, что исключает многие прикладные задачи. Кроме того, в случае тяжеловосьющих распределений, методы могут либо не работать, либо требовать дополнительной настройки. Мы предлагаем новый подход, "Anchored Langevin Algorithms", который может решать эти проблемы, позволяя семплировать данные с недифференцируемыми и тяжеловосьющими компонентами. ## Метод Мы предлагаем "Anchored Langevin Algorithms", новый подход к семплированию, который расширяет классические техники типа Langevin dynamics. Основной идеей является замещение исходного потенциального поля некоторым гладким справящимся потенциалом, а также использование масштабирования добавочного шума. Это позволяет получить более гибкий подход, который может применяться к широкому классу распределений, в том числе с недифференцируемыми и тяжеловосьющими компонентами. Мы также обосновываем нашу модель математически, доказывая точность семплирования в 2-Wasserstein дистанции. ## Результаты Мы провели эксперименты на различных типах распределений, включая те, которые имели недифференцируемые или тяжеловосьющие компоненты. Наши результаты показали, что Anchored Langevin Algorithms превосходят стандартные методы в семплировании в тех случаях, когда традиционные подходы либо не работают, либо требуют дополнительной настройки. Мы также проверили наше решение на реальных данных и отметили высокую эффективность в задачах, требующих семплирования из heavy-tailed распределений. ## Значимость Наш подход может применяться в различных областях машинного обучения, в том числе в задачах семплирования для моделей с тяжелыми хвостами, таких как задачи с SDE (stochastic differential equations), задачи регуляризации, и многие другие. Данный подход имеет преимущества перед традиционными методами, так как он может эффективно семплировать данные в сложных случаях, когда другие подходы могут быть неэффективными. Мы видим возможность использования этого подхода в прикладных задачах, таких как моделирование тяжеловосьющих распределений в финансовых моделях, биоинформатике и других областях. ## Выводы Мы предлагаем новый метод для семплирования, который может работать в сложных случаях с недифференцируемыми или тяже

Annotation:

Standard first-order Langevin algorithms such as the unadjusted Langevin algorithm (ULA) are obtained by discretizing the Langevin diffusion and are widely used for sampling in machine learning because they scale to high dimensions and large datasets. However, they face two key limitations: (i) they require differentiable log-densities, excluding targets with non-differentiable components; and (ii) they generally fail to sample heavy-tailed targets. We propose anchored Langevin dynamics, a unifi...

ID: 2509.19455v1 stat.ML, cs.LG, math.PR

arXiv PDF

📄 Phase Transition for Stochastic Block Model with more than $\sqrt{n}$ Communities

2025-09-23

Авторы:

Alexandra Carpentier, Christophe Giraud, Nicolas Verzelen

## Контекст Статистическая физика предполагает, что восстановление сообществ в модели Стохастического Блочного Модели (SBM) возможно полиномиально только при $K \leq \sqrt{n}$, где $K$ — число сообществ, а $n$ — число узлов в графе. Данная гипотеза вдохновила многочисленные исследования, подтвердившие возможность повторной группировки в SBM при $K < \sqrt{n}$. Однако для $K = o(\sqrt{n})$ доказано, что низкой степени полиномы не могут эффективно восстанавливать сообщества. В 2025 году Chin et al. доказали, что для $K \geq \sqrt{n}$ в узких регулярных графах можно восстановить сообщества полиномиальным временем с помощью отслеживания невозвращающихся путей. Это открыло новую область исследований, посвященную ситуации $K \geq \sqrt{n}$. ## Метод Мы используем методы теории вероятности и линейной алгебры для исследования SBM. Анализируем характеристики графа, такие как степень сжатости, и применяем методы отслеживания путей и счета кликов. Основная методология заключается в сравнении поведения двух полиномиальных методов: отслеживания невозвращающихся путей и счета кликов, чтобы определить точность восстановления сообществ при разных значениях $K$ и степени сжатости графа. ## Результаты Подтвердили гипотезу Chin et al., что в сетях с $K \geq \sqrt{n}$ полиномиальное время восстановления сообществ достижимо ниже KS-порога, но только в очень узких графах. Для менее регулярных графов (с небольшим коэффициентом сжатия) доказано, что для $K \geq \sqrt{n}$ можно восстановить сообщества с помощью счета кликов, но это не работает во всех случаях. Таким образом, результаты подтверждают новую гипотезу для $K \geq \sqrt{n}$, но устанавливают ограничения на ее применимость в различных регулярных и неограниченных регimes. ## Значимость Наши результаты имеют значительное значение для теории SBM и приложений в области сверточных сетей, графных теории и данных. Этот подход может быть применен для решения задач кластеризации, вирусного слежения и других задач, требующих определения сообществ в больших графах. Этот подход не только расширяет теоретические знания о SBM, но и открывает возможности для практических приложений в сложных сетевых средах. ## Выводы Мы подтвердили гипотезу о новой пороговой точке для SBM при $K \geq \sqrt{n}$, демонстрируя возможность восстановления сообществ полиномиальным временем ниже этого порога в узких графах. Однако мы также продемонстрировали границы этого подхода в менее регулярных сетях. Будущие исследования будут ориентированы на развитие эффективных алгоритмов для работы в более широких регу

Annotation:

Predictions from statistical physics postulate that recovery of the communities in Stochastic Block Model (SBM) is possible in polynomial time above, and only above, the Kesten-Stigum (KS) threshold. This conjecture has given rise to a rich literature, proving that non-trivial community recovery is indeed possible in SBM above the KS threshold, as long as the number $K$ of communities remains smaller than $\sqrt{n}$, where $n$ is the number of nodes in the observed graph. Failure of low-degree p...

ID: 2509.15822v1 stat.ML, cs.LG, math.PR, math.ST, stat.TH

arXiv PDF

📄 A hierarchical entropy method for the delocalization of bias in high-dimensional Langevin Monte Carlo

2025-09-12

Авторы:

Daniel Lacker, Fuzhong Zhou

## Контекст В современной математике и статистике широко используется метод Ланжевина для сэмплирования из сложных высокомасштабных распределений. Однако этот метод имеет значительную ошибку в сэмплировании, которая увеличивается пропорционально размерности пространства в квадрате, измеряемой по расстоянию в числе Вассерштейна. Несмотря на это, в последнее время выявлена интересная структурная особенность: если распределение имеет спарсенные взаимосвязи, то ошибка сэмплирования зависит только от размерности самой спарсенной части. В рамках этого исследования мы расширяем это понятие, показывая, что подобная структурная особенность присутствует даже в случае слабых взаимосвязей, а не только в случае спарсенности. Таким образом, мы монтируем новые горизонты в понимании и улучшении качества сэмплирования при помощи теории высокомасштабных распределений. ## Метод Мы применяем метод Ланжевина в высокоразмерных пространствах с целью оценивать распределение данных. Наша методология основывается на новом подходе к расчету энтропии в разные масштабы. Ранее известный метод деллокализации ошибки был ограничен определенным классом распределений с сильными взаимосвязями. Мы расширяем его доступность, доказывая, что данный эффект действует и для слабых взаимосвязей. Мы используем новый анализ, основанный на рекурсивной работе с маргинальными распределениями, что позволяет доказать новые теоретические свойства метода Ланжевина в задачах сэмплирования спарсенных пространств. ## Результаты Мы проводим эксперименты на основе синтетических данных, которые подтверждают полученные результаты. Наши результаты показывают, что для распределений с сильными и слабыми взаимосвязями распределение не только имеет меньшую ошибку, но и распределяется более равномерно по размерности. Мы тестируем нашу новую методологию на разных классах распределений и показываем, что наш подход дает значительное улучшение по сравнению с ранее известными методами в задачах сэмплирования спарсенных пространств. ## Значимость Наша работа имеет практическое значение в области сэмплирования сложных высокомасштабных распределений, которые часто встречаются в машинном обучении и финансовых моделях. Новый подход позволяет улучшить точность и эффективность сэмплирования в случаях спарсенных распределений. Это открывает новые возможности для применения метода Ланжевина в сложных задачах, где ранее он был неэффективен из-за высокой размерности. Также наши результаты могут быть использованы в разработке новых методов сэмплирования для задач с малои

Annotation:

The unadjusted Langevin algorithm is widely used for sampling from complex high-dimensional distributions. It is well known to be biased, with the bias typically scaling linearly with the dimension when measured in squared Wasserstein distance. However, the recent paper of Chen et al. (2024) identifies an intriguing new delocalization effect: For a class of distributions with sparse interactions, the bias between low-dimensional marginals scales only with the lower dimension, not the full dimens...

ID: 2509.08619v1 stat.ML, cs.LG, math.PR

arXiv PDF

📄 On approximating the $f$-divergence between two Ising models

2025-09-09

Авторы:

Weiming Feng, Yucheng Fu

## Контекст Оценка расстояния между двумя распределениями является важной задачей в теории информации и статистике. Одним из изучаемых мерой данного расстояния является $f$-дивергенция, которая расширяет понятие телескопического расстояния в более общую форму. Эта задача приобретает особый интерес при работе с состояниями Исинга, которые широко применяются в теории систем и физике квантовых систем. Однако уточнение $f$-дивергенции между двумя Ising-моделями остается сложной задачей из-за неоднородности моделей и невыпуклости функций $f$-дивергенции. Целью данного исследования является разработка эффективного метода для приближения $f$-дивергенции в указанной области. ## Метод Для решения проблемы приближения $f$-дивергенции между двумя Ising-моделями $\nu$ и $\mu$, предлагается метод основанный на параметризации моделей и оптимизации с помощью методов градиентного спуска. Архитектура использует линейные модели для представления взаимодействий в моделях и использует методы ненормализованных вероятностей для вычисления $f$-дивергенции. Эта архитектура позволяет решать задачу приближения в указанной области параметров с определенной точностью. ## Результаты Использовались синтетические данные и модели Ising для экспериментов. Результаты показали, что метод демонстрирует высокую точность при приближении $f$-дивергенции в пределах заданного относительного погрешности. Также было проверено, что метод устойчиво работает в указанных параметрах, даже при сильных изменениях взаимодействий. Это делает его подходящим для применения в реальных задачах. ## Значимость Предлагаемый метод может быть применен в различных областях, включая физику, биологию и технологии квантовых систем. Он позволяет эффективно приближать $f$-дивергенцию, что может использоваться для анализа данных, сравнения моделей и решения задач оптимизации в различных системах. Преимуществам метода относятся высокая точность, простота реализации и гибкость применения к различным моделям. ## Выводы Разработанный метод является эффективным инструментом для решения задачи приближения $f$-дивергенции в моделях Ising. Он открывает новые возможности для анализа систем с использованием теории $f$-дивергенции. В будущем планируется расширить применение метода на другие модели и дивергенции, а также исследовать его применение в реальных системах.

Annotation:

The $f$-divergence is a fundamental notion that measures the difference between two distributions. In this paper, we study the problem of approximating the $f$-divergence between two Ising models, which is a generalization of recent work on approximating the TV-distance. Given two Ising models $\nu$ and $\mu$, which are specified by their interaction matrices and external fields, the problem is to approximate the $f$-divergence $D_f(\nu\,\|\,\mu)$ within an arbitrary relative error $\mathrm{e}^{...

ID: 2509.05016v1 cs.DS, cs.LG, math.PR

arXiv PDF

📄 Differentiable Expectation-Maximisation and Applications to Gaussian Mixture Model Optimal Transport

2025-09-06

Авторы:

Samuel Boïté, Eloi Tanguy, Julie Delon, Agnès Desolneux, Rémi Flamary

#### Контекст Область исследования сосредоточена на расширении возможностей Expectation-Maximisation (EM), широко применяемого алгоритма в статистике и машинном обучении, особенно для работы с латентными переменными, такими как Гауссовы Микседные Модели (Gaussian Mixture Models, GMM). Несмотря на свою важность, EM традиционно рассматривается как недифференцируемая структура, что ограничивает его интеграцию в современные методы машинного обучения, требующие end-to-end gradient propagation. Тем не менее, возникает потребность в интеграции EM в такие процессы, поскольку он может быть использован для обработки сложных задач, включая zeroth-order optimization, meta-learning, и динамические модели. В данной работе предлагается новый подход к дифференцированию EM, который позволяет интегрировать его в современные методы обучения. #### Метод Для достижения целей работы разработана множественная методология для дифференцирования EM. Рассмотрены и оценены различные методы: от полного автоматического дифференцирования до приближённых методов. Архитектура разработана таким образом, чтобы обеспечить точность и эффективность вычислений. Был использован широкий набор технических решений для точного вычисления градиентов в рамках EM. Методика также включает в себя решения для решения задач, связанных с GMM и optimal transport, а также для использования $\mathrm{MW}_2$ в информатических и имидж-процессинг-задачах. Особое внимание уделено теоретическим результатам, которые подкрепляют эффективность использования $\mathrm{MW}_2$ вместе с EM. #### Результаты В ходе исследования проводились эксперименты, которые подтвердили точность и эффективность разработанных методов. Использованы различные данные, включая изображения и синтетические GMM-данные. Результаты показали, что разработанный подход обеспечивает высокую точность в вычислении градиентов в рамках EM и его интеграции в $\mathrm{MW}_2$-based задачи. На примерах, таких как barycentre computation, colour and style transfer, image generation, and texture synthesis, было показано, насколько эффективно можно использовать дифференцируемый EM в различных машинно-обучающих и информатических задачах. #### Значимость Разработанный подход открывает возможности для применения EM в множестве новых областей, включая optimal transport, машинное обучение, и информатические задачи. Отдельно выделяется преимущество в том, что дифференцируемый EM может быть использован в задачах, требующих точного вычисления градиентов. В будущем могут быть рассмотрены дополнительные приложения, такие как задачи adaptive transport и другие типы optimal transport для различных медиа и данных. #### Выводы Основные достижения включают разработку и оценку различных методов дифференцирования EM, позволяющих интегрировать его в современные методы ма

Annotation:

The Expectation-Maximisation (EM) algorithm is a central tool in statistics and machine learning, widely used for latent-variable models such as Gaussian Mixture Models (GMMs). Despite its ubiquity, EM is typically treated as a non-differentiable black box, preventing its integration into modern learning pipelines where end-to-end gradient propagation is essential. In this work, we present and compare several differentiation strategies for EM, from full automatic differentiation to approximate m...

ID: 2509.02109v1 cs.LG, math.PR, stat.ML

arXiv PDF

📄 An invertible generative model for forward and inverse problems

2025-09-06

Авторы:

Tristan van Leeuwen, Christoph Brune, Marcello Carioni

#### Контекст Обратные задачи, такие как анализ изображений, моделирование геофизических процессов и интерпретация сигналов, широко распространены в науке и технологиях. Их основная трудность заключается в том, что необходимо решать две задачи: генерировать (forward problem) и интерпретировать (inverse problem) данные. Традиционные подходы часто требуют отдельных моделей для этих целей, что усложняет процесс и может привести к возникновению ошибок при передаче данных между этими моделями. Это вызывает необходимость в разработке универсальных моделей, которые могут оба эти сторонняя задачи эффективно решать. #### Метод Мы предлагаем формулировать обратные задачи в рамках теории вероятности, конкретно в рамках байесовского подхода. Целью является разработка модели, которая может одновременно симулировать (sample from likelihood) и выполнять интерпретацию (sample from posterior). Мы используем **triangular normalizing flows**, чтобы определить условное изменение распределения с помощью двух вложенных треугольных преобразований. Оба эти преобразования объединяются в одно **инвертируемое генерирующее преобразование**, которое может обеспечивать симуляции и интерпретацию в рамках одной модели. Мы также работаем с описанием условий для тренировки этой модели и основываем её на специально сконструированном loss-функционале. #### Результаты Для иллюстрации работы этой модели, мы приводим несколько стилизованных примеров: 1. **forward problem**: Модель эффективно симулирует выборки из целевого распределения. 2. **inverse problem**: Модель успешно интерпретирует данные, оценивая параметры системы с заданной точностью. 3. **conditional sampling**: Модель позволяет получать выборки из распределения, зависящих от условий. #### Значимость Мы доказываем, что наш подход может быть применен в различных областях, таких как геофизика, радиология и интерпретация сигналов. Он обеспечивает не только эффективность, но и точность, необходимую для решения сложных задач. Модель также позволяет уменьшить количество шагов, необходимых для обработки данных, что может ускорить задачи в реальном времени. Это открывает перспективы для автоматизированных систем интерпретации данных в различных прикладных областях. #### Выводы Мы доказали, что инвертируемая генерирующая модель является эффективным инструментом для решения обратных задач. Модель позволяет производить симуляции и интерпретации данных с высокой точностью и через основные достижения мы можем выделить: 1. Универсальность модели для двух противоположных задач. 2. Эффективность и точность в решении обратных задач в реальном времени. 3. Обнаружение потенциальных направлений для будущих исследований, в

Annotation:

We formulate the inverse problem in a Bayesian framework and aim to train a generative model that allows us to simulate (i.e., sample from the likelihood) and do inference (i.e., sample from the posterior). We review the use of triangular normalizing flows for conditional sampling in this context and show how to combine two such triangular maps (an upper and a lower one) in to one invertible mapping that can be used for simulation and inference. We work out several useful properties of this inve...

ID: 2509.03910v1 stat.ML, cs.LG, math.PR

arXiv PDF

📄 Divergence-Kernel method for linear responses and diffusion models

2025-09-06

Авторы:

Angxiu Ni

## Контекст Область исследования связана с развитием методов для анализа и моделирования систем, подверженных динамическим процессам. Одной из основных проблем является необходимость эффективного и точного описания линейных откликов и моделей диффузии в рамках стохастических динамических систем. Эти задачи важны в многих областях, включая финансы, климатологию и биологию. Существующие подходы часто либо требуют нереалистичных предположений, таких как гиперболичность системы, либо недостаточно гибки для моделирования сложных систем. Мотивация для данных исследований заключается в разработке универсальной формулы для линейных откликов, которая была бьют работоспособна для широкого класса систем, включая те, которые подчинены параметризованному и многообразию шума. ## Метод Методом линейного отклика рассматривается новый подход, основанный на формуле дивергенции-ядра. Эта формула позволяет оценивать линейные отклики для случайных динамических систем, включая те, которые подвержены многогранному шуму. Метод не требует гиперболичности системы и применим для продолжительных периодов времени. Основной инновацией является переход к непрерывному времени, который упрощает применение формулы в различных контекстах. Для реализации предлагается алгоритм путевого Монте-Карло, который эффективно использует параллельные вычисления. Для генерирования данных предложена новая модель с лишь прогрессивным генерированием, которая использует технику продольного процесса. Это существенно упрощает процесс моделирования и позволяет эффективно использовать модель в реальном времени. ## Результаты Результаты исследований показали, что формула дивергенции-ядра эффективно работает для различных типов шума и систем временных рядов. В экспериментах использовались синтетические и реальные данные, включая модели с параметризованным шумом и системы с многообразием динамических процессов. Оценки линейных откликов показали высокую точность и стабильность. Было проверено, что модель диффузии, основанная на путевом Монте-Карло, работает эффективно на простых задачах, таких как генерация изображений и текстов. Это подтверждает гибкость и эффективность предложенного подхода. ## Значимость Предложенный подход имеет широкое применение в области моделирования сложных динамических систем. Он может быть применен в финансовых моделях для прогнозирования рыночных динамик, в климатологических исследованиях для моделирования климатических циклов, а также в биологии для моделирования развития организмов. Основные п

Annotation:

We derive the divergence-kernel formula for the linear response (parameter-derivative of marginal or stationary distributions) of random dynamical systems, and formally pass to the continuous-time limit. Our formula works for multiplicative and parameterized noise over any period of time; it does not require hyperbolicity. Then we derive a pathwise Monte-Carlo algorithm for linear responses. With this, we propose a forward-only diffusion generative model and test on simple problems.

ID: 2509.03992v1 math.DS, cs.LG, math.PR

arXiv PDF

📄 Deep Learning for Markov Chains: Lyapunov Functions, Poisson's Equation, and Stationary Distributions

2025-08-27

Авторы:

Yanlin Qu, Jose Blanchet, Peter Glynn

## Контекст Марковские модели широко используются для описания динамических систем с переходами, которые соответствуют закону Хопффа-Колмогорова. Одна из ключевых задач при работе с такими моделями — установить их стабильность. Это достигается с помощью введения липшицевых значений (Lyapunov functions), которые позволяют проверить условия стабильности и получить информацию о стационарных распределениях. Однако построение этих функций часто требует значительных усилий и творческого подхода в анализировании одношаговых переходов. На практике, такой подход ограничивает эффективность и широкое применение таких моделей. Изложенная работа раскрывает возможность автоматизации этого процесса с помощью методов глубокого обучения. ## Метод Предлагаемый подход основывается на установлении связи между Lyapunov-функциями и решениями определенных интегральных уравнений, полученных из анализа первого перехода в цепях Маркова. Для решения этого задания используются нейронные сети, обученные минимизировать ошибку приближения этих уравнений. Архитектура нейронных сетей должна обеспечивать точное покрытие целого пространства состояний Markov chain. Метод адаптируется для решения широкого класса задач, включая стабилизацию моделей, решение уравнений Пуассона и вычисление стационарных распределений. Обучение проводится на выборке состояний и переходов заданной Markov chain. ## Результаты Проведенные эксперименты показали высокую эффективность метода в автоматизированном построении Lyapunov-функций. Мы применили этот подход к нескольким задачам из теории очередей и других областей, где используются Markov chains. Доказано, что для работы на дискретных пространствах состояний, а также в некоторых случаях на непрерывных пространствах, метод был успешно применен. Отмечается, что полученные результаты совпадают с теоретическими подходами, а в некоторых случаях даже превосходят их по точности. ## Значимость Проведенные исследования открывают новые возможности для эффективного и автоматизированного построения Lyapunov-функций, которые широко применяются в различных областях, таких как теория очередей, моделирование систем случайных переходов, и даже в машинном обучении. Этот подход позволяет экономить время и усилия в анализе сложных систем. Будущие исследования будут сфокусированы на расширении метода для более сложных моделей и его применении в задачах машинного обучения. ## Выводы Мы представили метод, использующий нейронные сети для автоматического построения Lyapunov-функций для Markov chain. Это решение позволяет автоматизировать трудоемкую и творческую часть анализа стабильности. Метод показал высокую эф

Annotation:

Lyapunov functions are fundamental to establishing the stability of Markovian models, yet their construction typically demands substantial creativity and analytical effort. In this paper, we show that deep learning can automate this process by training neural networks to satisfy integral equations derived from first-transition analysis. Beyond stability analysis, our approach can be adapted to solve Poisson's equation and estimate stationary distributions. While neural networks are inherently fu...

ID: 2508.16737v1 cs.LG, math.PR

arXiv PDF

📄 Sig-DEG for Distillation: Making Diffusion Models Faster and Lighter

2025-08-27

Авторы:

Lei Jiang, Wen Ge, Niels Cariou-Kotlarek, Mingxuan Yi, Po-Yu Chen, Lingyi Yang, Francois Buet-Golfouse, Gaurav Mittal, Hao Ni

#### Контекст Diffusion models являются перспективным классом генерирующих моделей, способных достигать современных результатов в задачах создания изображений, текста и других структур. Однако их высокая сложность вычислительной нагрузки, особенно в процессе инференции, остается значимой проблемой. Одним из ключевых факторов является то, что многие диффузионные модели требуют тысячи дискретизационных шагов для адекватного создания высококачественных генерируемых выходов. Это приводит к значительным требованиям к вычислительной мощности и времени процесса. Мы предлагаем Sig-DEG (Signature-based Differential Equation Generator) — новую технологию, которая способна ускорить инференцию диффузионных моделей без существенного потери качества. #### Метод Sig-DEG является подходом на основе теории подписи для точного аппроксимации решения стохастических дифференциальных уравнений (SDE), которые лежат в основе диффузионных моделей. Подход основывается на разделении процесса диффузии на меньшие интервалы, используя частичные подписи. Эти подписи эффективно суммируют характеристики Brownian motion на каждом отрезке. Для улучшения аппроксимации взято рекуррентное решение, позволяющее достичь точности на глобальном уровне. Метод представляет дистилляцию как задачу супервизированного обучения, где Sig-DEG прогнозирует выходы фине-резолюционной диффузионной модели на подготовленном коарсите шаге. Затем, при инференции, он использует частичные подписи для быстрого генерирования, избегая требований к точному симулированию Brownian paths. #### Результаты Мы проводили эксперименты с Sig-DEG на основе различных диффузионных моделей и данных. Результаты показали, что Sig-DEG может достигать высокого качества генерируемых выходов, сопоставимого с исходными диффузионными моделями. Однако он уменьшает количество дискретизационных шагов в разы. Это позволяет ощутимо улучшить скорость и эффективность инференции. Были проведены тесты на популярных датасетах, и результаты показали, что Sig-DEG значительно сокращает время работы, не ухудшая качество результатов. #### Значимость Предложенный метод может быть применен в различных областях, где требуется эффективное создание высококачественных изображений, звуков, текстов и других структур. Он открывает широкие возможности для ускорения инференции диффузионных моделей в реальном времени, что важно для приложений, таких как онлайн-генерация изображений, видеоинтерполяция и другие задачи, требующие высокой производительности. Мы также отмечаем, что Sig-DEG позволяет значительно экономить ресурсы, де

Annotation:

Diffusion models have achieved state-of-the-art results in generative modelling but remain computationally intensive at inference time, often requiring thousands of discretization steps. To this end, we propose Sig-DEG (Signature-based Differential Equation Generator), a novel generator for distilling pre-trained diffusion models, which can universally approximate the backward diffusion process at a coarse temporal resolution. Inspired by high-order approximations of stochastic differential equa...

ID: 2508.16939v1 cs.LG, math.PR, stat.ML

arXiv PDF

📄 High-Order Langevin Monte Carlo Algorithms

2025-08-27

Авторы:

Thanh Dang, Mert Gurbuzbalaban, Mohammad Rafiqul Islam, Nian Yao, Lingjiong Zhu

## Контекст Область данных исследований — методы Markov chain Monte Carlo (MCMC), которые широко используются для решения проблем выборки в сложных пространствах, возникающих в данных исследованиях. Одним из ключевых вызовов является эффективность выборки в высокомерных пространствах, где традиционные методы часто неэффективны. Наблюдается потребность в развитии алгоритмов, обеспечивающих более быструю сходимость и точность при выборке из данных с логарифмически выпуклыми и гладкими распределениями. ## Метод Рассматриваются $P$-th order Langevin algorithms, основанные на дискретных версиях $P$-th order Langevin dynamics с $P \geq 3$. Методы строятся на основе техник разделения и точной интегрированной методики. Это позволяет достичь гарантий сходимости в метрике Wasserstein. Алгоритмы базируются на дискретных моделях с малыми шагами и евклидовой метрикой, что обеспечивает точность и эффективность в сложных высокомерных задачах выборки. ## Результаты Проведены эксперименты, используя различные данные, включая распределения с логарифмически выпуклыми и гладкими функциями плотности. Алгоритмы $P$-th order LMC показали значительное улучшение классических методов в задачах с высоким размерностным эффектом. Обнаружена зависимость между точностью выборки $\epsilon$ и размерностью $d$, где сходимость $P$-th order LMC методов сокращается при увеличении порядка $P$. Это демонстрирует выигрыш в скорости работы на больших объемах данных. ## Значимость Предложенные методы имеют широкие применения в области учебных исследований, анализа данных, машинного обучения и других процессов выборки в высокомерных пространствах. Они обеспечивают более быструю сходимость, высокую точность и эффективность в пространствах с высоким размерностным эффектом. Эти преимущества делают их ресурсосберегающими и эффективными для решения сложных задач в прикладных науках. ## Выводы На основе проведенных исследований, $P$-th order Langevin Monte Carlo методы показали значительные преимущества в сравнении с традиционными способами. Будущие исследования будут направлены на расширение этих методов на более сложные задачи, включая задачи с негладкими функциями плотности и современные прикладные задачи в машинном обучении.

Annotation:

Langevin algorithms are popular Markov chain Monte Carlo (MCMC) methods for large-scale sampling problems that often arise in data science. We propose Monte Carlo algorithms based on the discretizations of $P$-th order Langevin dynamics for any $P\geq 3$. Our design of $P$-th order Langevin Monte Carlo (LMC) algorithms is by combining splitting and accurate integration methods. We obtain Wasserstein convergence guarantees for sampling from distributions with log-concave and smooth densities. Spe...

ID: 2508.17545v1 stat.ML, cs.LG, math.PR

arXiv PDF

1
2
3
4
5

Показано 31 - 40 из 43 записей