E-ROBOT: a dimension-free method for robust statistics and machine learning via Schrödinger bridge
2509.11532v1
stat.ML, cs.LG
2025-09-17
Авторы:
Davide La Vecchia, Hang Liu
Резюме на русском
## Контекст
Поиск эффективных методов оценивания робастности статистических моделей и машинного обучения является ключевым заданием в широком кругу приложений, от моделирования физических систем до анализа данных в медицине и финансах. Однако существующие подходы часто столкнуваются с проблемами, такими как высокая сложность вычислений, чувствительность к выбросам данных или неэффективность при работе с большими объемами данных. Такие ограничения приводят к необходимости разработки методов, обеспечивающих робастность и высокую скорость работы в различных областях.
## Метод
Мы предлагаем **E-ROBOT** (Entropic-regularized Robust Optimal Transport), новую модель, которая объединяет робастность **ROBOT** (Robust Optimal Transport) с выгодами **энтропийной регуляризации**. Метод основывается на **теории Шредингеровой жёсткости**, которая позволяет определить **параметризованный синхронно-инвариантный распределение**. На практике, это даёт возможность оптимизировать робастность с помощью класса **Sinkhorn divergence**, которая зависит от двух параметров: **\lambda** (контролирующего робастность) и **\varepsilon** (контролирующего регуляризацию). Эта гибкость позволяет уменьшить чувствительность к выбросам и оптимизировать сложность вычислений в задачах с большим количеством данных.
## Результаты
Мы проверили E-ROBOT в четырёх различных сценариях:
1. **Goodness-of-fit тестирование**: проверка соответствия данных распределению.
2. **Компьютерное зрение**: вычисление барицентров для повреждённых 2D и 3D фигур.
3. **Градиентные потоки**: определение динамики в задачах машинного обучения.
4. **Image color transfer**: цветовое преобразование между изображениями.
В каждом случае, мы показали, что **E-ROBOT** демонстрирует высокую робастность и эффективность, даже при работе с высокомерностьными данными. Например, при тестировании распределений, мы получили точность с **\mathcal{O}(n^{-1/2})**, что позволяет избежать **curse of dimensionality**, обычного для традиционных методов.
## Значимость
E-ROBOT может использоваться в следующих областях:
- **Машинное обучение**: для робастных задач классификации и регрессии.
- **Статистический анализ**: для выявления выбросов и тестирования гипотез.
- **Робототехника и компьютерное зрение**: для задач исправления и преобразования данных.
Помимо высокой робастности и скорости работы, E-ROBOT также обеспечивает диапазон преимуществ, таких как уменьшение влияния выбросов и расширение возможностей для масштабируемых задач.
## Выводы
Мы представили E-ROBOT, новый метод, который успешно комбинирует робастность и высокую скорость работы в задачах статистического анализа и
Abstract
We propose the Entropic-regularized Robust Optimal Transport (E-ROBOT)
framework, a novel method that combines the robustness of ROBOT with the
computational and statistical benefits of entropic regularization. We show
that, rooted in the Schr\"{o}dinger bridge problem theory, E-ROBOT defines the
robust Sinkhorn divergence $\overline{W}_{\varepsilon,\lambda}$, where the
parameter $\lambda$ controls robustness and $\varepsilon$ governs the
regularization strength. Letting $n\in \mathbb{N}$ denote the sample size, a
central theoretical contribution is establishing that the sample complexity of
$\overline{W}_{\varepsilon,\lambda}$ is $\mathcal{O}(n^{-1/2})$, thereby
avoiding the curse of dimensionality that plagues standard ROBOT. This
dimension-free property unlocks the use of $\overline{W}_{\varepsilon,\lambda}$
as a loss function in large-dimensional statistical and machine learning tasks.
With this regard, we demonstrate its utility through four applications:
goodness-of-fit testing; computation of barycenters for corrupted 2D and 3D
shapes; definition of gradient flows; and image colour transfer. From the
computation standpoint, a perk of our novel method is that it can be easily
implemented by modifying existing (\texttt{Python}) routines. From the
theoretical standpoint, our work opens the door to many research directions in
statistics and machine learning: we discuss some of them.
Ссылки и действия
Дополнительные ресурсы: