E-ROBOT: a dimension-free method for robust statistics and machine learning via Schrödinger bridge

2509.11532v1 stat.ML, cs.LG 2025-09-17
Авторы:

Davide La Vecchia, Hang Liu

Резюме на русском

## Контекст Поиск эффективных методов оценивания робастности статистических моделей и машинного обучения является ключевым заданием в широком кругу приложений, от моделирования физических систем до анализа данных в медицине и финансах. Однако существующие подходы часто столкнуваются с проблемами, такими как высокая сложность вычислений, чувствительность к выбросам данных или неэффективность при работе с большими объемами данных. Такие ограничения приводят к необходимости разработки методов, обеспечивающих робастность и высокую скорость работы в различных областях. ## Метод Мы предлагаем **E-ROBOT** (Entropic-regularized Robust Optimal Transport), новую модель, которая объединяет робастность **ROBOT** (Robust Optimal Transport) с выгодами **энтропийной регуляризации**. Метод основывается на **теории Шредингеровой жёсткости**, которая позволяет определить **параметризованный синхронно-инвариантный распределение**. На практике, это даёт возможность оптимизировать робастность с помощью класса **Sinkhorn divergence**, которая зависит от двух параметров: **\lambda** (контролирующего робастность) и **\varepsilon** (контролирующего регуляризацию). Эта гибкость позволяет уменьшить чувствительность к выбросам и оптимизировать сложность вычислений в задачах с большим количеством данных. ## Результаты Мы проверили E-ROBOT в четырёх различных сценариях: 1. **Goodness-of-fit тестирование**: проверка соответствия данных распределению. 2. **Компьютерное зрение**: вычисление барицентров для повреждённых 2D и 3D фигур. 3. **Градиентные потоки**: определение динамики в задачах машинного обучения. 4. **Image color transfer**: цветовое преобразование между изображениями. В каждом случае, мы показали, что **E-ROBOT** демонстрирует высокую робастность и эффективность, даже при работе с высокомерностьными данными. Например, при тестировании распределений, мы получили точность с **\mathcal{O}(n^{-1/2})**, что позволяет избежать **curse of dimensionality**, обычного для традиционных методов. ## Значимость E-ROBOT может использоваться в следующих областях: - **Машинное обучение**: для робастных задач классификации и регрессии. - **Статистический анализ**: для выявления выбросов и тестирования гипотез. - **Робототехника и компьютерное зрение**: для задач исправления и преобразования данных. Помимо высокой робастности и скорости работы, E-ROBOT также обеспечивает диапазон преимуществ, таких как уменьшение влияния выбросов и расширение возможностей для масштабируемых задач. ## Выводы Мы представили E-ROBOT, новый метод, который успешно комбинирует робастность и высокую скорость работы в задачах статистического анализа и

Abstract

We propose the Entropic-regularized Robust Optimal Transport (E-ROBOT) framework, a novel method that combines the robustness of ROBOT with the computational and statistical benefits of entropic regularization. We show that, rooted in the Schr\"{o}dinger bridge problem theory, E-ROBOT defines the robust Sinkhorn divergence $\overline{W}_{\varepsilon,\lambda}$, where the parameter $\lambda$ controls robustness and $\varepsilon$ governs the regularization strength. Letting $n\in \mathbb{N}$ denote the sample size, a central theoretical contribution is establishing that the sample complexity of $\overline{W}_{\varepsilon,\lambda}$ is $\mathcal{O}(n^{-1/2})$, thereby avoiding the curse of dimensionality that plagues standard ROBOT. This dimension-free property unlocks the use of $\overline{W}_{\varepsilon,\lambda}$ as a loss function in large-dimensional statistical and machine learning tasks. With this regard, we demonstrate its utility through four applications: goodness-of-fit testing; computation of barycenters for corrupted 2D and 3D shapes; definition of gradient flows; and image colour transfer. From the computation standpoint, a perk of our novel method is that it can be easily implemented by modifying existing (\texttt{Python}) routines. From the theoretical standpoint, our work opens the door to many research directions in statistics and machine learning: we discuss some of them.

Ссылки и действия