Neighbor Embeddings Using Unbalanced Optimal Transport Metrics

2509.19226v1 stat.ML, cs.LG 2025-09-25
Авторы:

Muhammad Rana, Keaton Hamm

Резюме на русском

## Контекст Нейронные сети и машинное обучение находят применение во многих областях, включая выявление зависимостей, классификацию и кластеризацию данных. Однако, при использовании таких методов возникают проблемы, связанные с пространственными и масштабными различиями в данных. Например, в задачах классификации и кластеризации, где данные имеют разные величины или разреженные регионы, эти аспекты могут сильно сказываться на качестве результатов. Особенно эти проблемы часто встречаются в обработке изображений, текстов и биомедицинских данных. Здесь введено новое решение, основанное на метрике Hellinger-Kantorovich, в рамках метрики нелинейного транспорта (Unbalanced Optimal Transport, UOT). Эта метрика позволяет учесть неравенства в размерах и масштабах данных, что может улучшить качество результатов в задачах обучения. ## Метод В этой работе предложено использовать метрику Hellinger-Kantorovich для научных задач, основанных на нелинейном транспорте. Метод основывается на теории топологического транспорта, которая позволяет переносить весь дистрибутивный характер данных, включая сильные и слабые показатели. Разработка включает в себя две основные составляющие: использование нормального распределения для приближения весов данных и выполнение нелинейного транспорта для решения задач классификации и кластеризации. Эти элементы объединены в новую метрику, которая позволяет выполнять обучение в сетях с учетом различий в масштабах и разреженности, что повышает качество результатов. ## Результаты Использовав это решение, проведены эксперименты на нескольких бенчмарк-датасетах, включая MedMNIST. Результаты показали, что новая метрика значительно превосходит обычные методы транспорта и Евклидовы метрики в задачах классификации и кластеризации. На датасете MedMNIST, UOT показал лучшие результаты в классификации в 81% случаев и в кластеризации в 83% случаев. Также были проведены статистические тесты, подтвердив выгоду UOT над традиционными методами с точки зрения точности и стабильности. ## Значимость Это решение можно применить во многих областях, где требуется учесть различия в масштабах и разреженности в данных. Например, в медицине, где существуют различия в размере изображений, или в обработке текстов, где разные элементы имеют разный вес. Улучшение качества классификации и кластеризации в этих областях может привести к более точным результатам в работе моделей. Этот подход также может быть применен в задачах предсказания, моделирования и обработки данных, где требуется учесть различия в масштабе. ## Выводы В результате, это работа создает новое решение для нейронных сет

Abstract

This paper proposes the use of the Hellinger--Kantorovich metric from unbalanced optimal transport (UOT) in a dimensionality reduction and learning (supervised and unsupervised) pipeline. The performance of UOT is compared to that of regular OT and Euclidean-based dimensionality reduction methods on several benchmark datasets including MedMNIST. The experimental results demonstrate that, on average, UOT shows improvement over both Euclidean and OT-based methods as verified by statistical hypothesis tests. In particular, on the MedMNIST datasets, UOT outperforms OT in classification 81\% of the time. For clustering MedMNIST, UOT outperforms OT 83\% of the time and outperforms both other metrics 58\% of the time.

Ссылки и действия