Fast Estimation of Wasserstein Distances via Regression on Sliced Wasserstein Distances
2509.20508v1
stat.ML, cs.LG
2025-09-27
Авторы:
Khai Nguyen, Hai Nguyen, Nhat Ho
Резюме на русском
####################################################
## Контекст
####################################################
Научное исследование посвящено проблеме эффективного вычисления Wasserstein-расстояний между различными парами распределений, образующихся при сэмплировании из мета-распределения. Это важно для областей, таких как машинное обучение, геномика и визуализация данных, где необходимо сравнивать выборки или распределения данных. Существующие методы либо неэффективны, либо неточны в условиях ограниченных данных. Авторы обращают внимание на то, что существующие модели, такие как Wasserstein Wormhole, либо требуют большого объема данных, либо недостаточно точны. Мотивация заключается в разработке быстрого и точного алгоритма, который мог бы эффективно работать даже при небольшом количестве данных.
####################################################
## Метод
####################################################
Методология основывается на использовании регрессии для связи Wasserstein-расстояний с sliced Wasserstein (SW) расстояниями. SW-расстояния представляют собой меру расстояния между распределениями, полученными путем срезков (slicing) выборок. Авторы рассматривают два вида SW-расстояний: стандартное (lower bound) и поднятое (upper bound). Используя эти расстояния в качестве признаков, авторы разрабатывают линейную модель, которая может предсказывать Wasserstein-расстояние. Для повышения эффективности, предлагаются два варианта модели: неограниченная (unconstrained) и ограниченная (constrained), различающиеся по количеству параметров. Модели обучаются на небольшом количестве распределений, после чего могут предсказывать Wasserstein-расстояние для новых распределений.
####################################################
## Результаты
####################################################
Чтобы проверить эффективность своего подхода, авторы проводят эксперименты на различных данных, включая Gaussian mixtures, point-cloud classification, и Wasserstein-space visualizations. Для сравнения используется состояние литературы, в частности, Wasserstein Wormhole. Результаты показывают, что предлагаемый подход дает более точные приближения Wasserstein-расстояний, особенно в условиях малого объема данных. На MNIST данных, ShapeNetV2 и MERFISH Cell Niches, предложенный алгоритм показывает значительно лучший результат, чем Wasserstein Wormhole. Кроме того, авторы улучшают скорость обучения Wormhole, предлагая алгоритм RG-Wormhole, который также демонстрирует высокую точность.
####################################################
## Значимость
####################################################
Предложенный подход имеет широкие приложения в области машинного обучения, биоинформатики и геометрического обучения. Основное преимущество заключается в том, что он может быстро и точно оценивать Wasserstein-расстояния даже при ограниченных данных. Это важно для задач, где необходимо сравнивать множество распределений, такие как геномная аналитика, визуализация трёхмерных данных и анализ данных распределенных систем. Также, новая модель ускоряет обучение других алгори
Abstract
We address the problem of efficiently computing Wasserstein distances for
multiple pairs of distributions drawn from a meta-distribution. To this end, we
propose a fast estimation method based on regressing Wasserstein distance on
sliced Wasserstein (SW) distances. Specifically, we leverage both standard SW
distances, which provide lower bounds, and lifted SW distances, which provide
upper bounds, as predictors of the true Wasserstein distance. To ensure
parsimony, we introduce two linear models: an unconstrained model with a
closed-form least-squares solution, and a constrained model that uses only half
as many parameters. We show that accurate models can be learned from a small
number of distribution pairs. Once estimated, the model can predict the
Wasserstein distance for any pair of distributions via a linear combination of
SW distances, making it highly efficient. Empirically, we validate our approach
on diverse tasks, including Gaussian mixtures, point-cloud classification, and
Wasserstein-space visualizations for 3D point clouds. Across various datasets
such as MNIST point clouds, ShapeNetV2, MERFISH Cell Niches, and scRNA-seq, our
method consistently provides a better approximation of Wasserstein distance
than the state-of-the-art Wasserstein embedding model, Wasserstein Wormhole,
particularly in low-data regimes. Finally, we demonstrate that our estimator
can also accelerate Wormhole training, yielding \textit{RG-Wormhole}.
Ссылки и действия
Дополнительные ресурсы: