Differentiable Expectation-Maximisation and Applications to Gaussian Mixture Model Optimal Transport
2509.02109v1
cs.LG, math.PR, stat.ML
2025-09-06
Авторы:
Samuel Boïté, Eloi Tanguy, Julie Delon, Agnès Desolneux, Rémi Flamary
Резюме на русском
#### Контекст
Область исследования сосредоточена на расширении возможностей Expectation-Maximisation (EM), широко применяемого алгоритма в статистике и машинном обучении, особенно для работы с латентными переменными, такими как Гауссовы Микседные Модели (Gaussian Mixture Models, GMM). Несмотря на свою важность, EM традиционно рассматривается как недифференцируемая структура, что ограничивает его интеграцию в современные методы машинного обучения, требующие end-to-end gradient propagation. Тем не менее, возникает потребность в интеграции EM в такие процессы, поскольку он может быть использован для обработки сложных задач, включая zeroth-order optimization, meta-learning, и динамические модели. В данной работе предлагается новый подход к дифференцированию EM, который позволяет интегрировать его в современные методы обучения.
#### Метод
Для достижения целей работы разработана множественная методология для дифференцирования EM. Рассмотрены и оценены различные методы: от полного автоматического дифференцирования до приближённых методов. Архитектура разработана таким образом, чтобы обеспечить точность и эффективность вычислений. Был использован широкий набор технических решений для точного вычисления градиентов в рамках EM. Методика также включает в себя решения для решения задач, связанных с GMM и optimal transport, а также для использования $\mathrm{MW}_2$ в информатических и имидж-процессинг-задачах. Особое внимание уделено теоретическим результатам, которые подкрепляют эффективность использования $\mathrm{MW}_2$ вместе с EM.
#### Результаты
В ходе исследования проводились эксперименты, которые подтвердили точность и эффективность разработанных методов. Использованы различные данные, включая изображения и синтетические GMM-данные. Результаты показали, что разработанный подход обеспечивает высокую точность в вычислении градиентов в рамках EM и его интеграции в $\mathrm{MW}_2$-based задачи. На примерах, таких как barycentre computation, colour and style transfer, image generation, and texture synthesis, было показано, насколько эффективно можно использовать дифференцируемый EM в различных машинно-обучающих и информатических задачах.
#### Значимость
Разработанный подход открывает возможности для применения EM в множестве новых областей, включая optimal transport, машинное обучение, и информатические задачи. Отдельно выделяется преимущество в том, что дифференцируемый EM может быть использован в задачах, требующих точного вычисления градиентов. В будущем могут быть рассмотрены дополнительные приложения, такие как задачи adaptive transport и другие типы optimal transport для различных медиа и данных.
#### Выводы
Основные достижения включают разработку и оценку различных методов дифференцирования EM, позволяющих интегрировать его в современные методы ма
Abstract
The Expectation-Maximisation (EM) algorithm is a central tool in statistics
and machine learning, widely used for latent-variable models such as Gaussian
Mixture Models (GMMs). Despite its ubiquity, EM is typically treated as a
non-differentiable black box, preventing its integration into modern learning
pipelines where end-to-end gradient propagation is essential. In this work, we
present and compare several differentiation strategies for EM, from full
automatic differentiation to approximate methods, assessing their accuracy and
computational efficiency. As a key application, we leverage this differentiable
EM in the computation of the Mixture Wasserstein distance $\mathrm{MW}_2$
between GMMs, allowing $\mathrm{MW}_2$ to be used as a differentiable loss in
imaging and machine learning tasks. To complement our practical use of
$\mathrm{MW}_2$, we contribute a novel stability result which provides
theoretical justification for the use of $\mathrm{MW}_2$ with EM, and also
introduce a novel unbalanced variant of $\mathrm{MW}_2$. Numerical experiments
on barycentre computation, colour and style transfer, image generation, and
texture synthesis illustrate the versatility and effectiveness of the proposed
approach in different settings.