Neighbor Embeddings Using Unbalanced Optimal Transport Metrics
2509.19226v1
stat.ML, cs.LG
2025-09-25
Авторы:
Muhammad Rana, Keaton Hamm
Резюме на русском
## Контекст
Нейронные сети и машинное обучение находят применение во многих областях, включая выявление зависимостей, классификацию и кластеризацию данных. Однако, при использовании таких методов возникают проблемы, связанные с пространственными и масштабными различиями в данных. Например, в задачах классификации и кластеризации, где данные имеют разные величины или разреженные регионы, эти аспекты могут сильно сказываться на качестве результатов. Особенно эти проблемы часто встречаются в обработке изображений, текстов и биомедицинских данных. Здесь введено новое решение, основанное на метрике Hellinger-Kantorovich, в рамках метрики нелинейного транспорта (Unbalanced Optimal Transport, UOT). Эта метрика позволяет учесть неравенства в размерах и масштабах данных, что может улучшить качество результатов в задачах обучения.
## Метод
В этой работе предложено использовать метрику Hellinger-Kantorovich для научных задач, основанных на нелинейном транспорте. Метод основывается на теории топологического транспорта, которая позволяет переносить весь дистрибутивный характер данных, включая сильные и слабые показатели. Разработка включает в себя две основные составляющие: использование нормального распределения для приближения весов данных и выполнение нелинейного транспорта для решения задач классификации и кластеризации. Эти элементы объединены в новую метрику, которая позволяет выполнять обучение в сетях с учетом различий в масштабах и разреженности, что повышает качество результатов.
## Результаты
Использовав это решение, проведены эксперименты на нескольких бенчмарк-датасетах, включая MedMNIST. Результаты показали, что новая метрика значительно превосходит обычные методы транспорта и Евклидовы метрики в задачах классификации и кластеризации. На датасете MedMNIST, UOT показал лучшие результаты в классификации в 81% случаев и в кластеризации в 83% случаев. Также были проведены статистические тесты, подтвердив выгоду UOT над традиционными методами с точки зрения точности и стабильности.
## Значимость
Это решение можно применить во многих областях, где требуется учесть различия в масштабах и разреженности в данных. Например, в медицине, где существуют различия в размере изображений, или в обработке текстов, где разные элементы имеют разный вес. Улучшение качества классификации и кластеризации в этих областях может привести к более точным результатам в работе моделей. Этот подход также может быть применен в задачах предсказания, моделирования и обработки данных, где требуется учесть различия в масштабе.
## Выводы
В результате, это работа создает новое решение для нейронных сет
Abstract
This paper proposes the use of the Hellinger--Kantorovich metric from
unbalanced optimal transport (UOT) in a dimensionality reduction and learning
(supervised and unsupervised) pipeline. The performance of UOT is compared to
that of regular OT and Euclidean-based dimensionality reduction methods on
several benchmark datasets including MedMNIST. The experimental results
demonstrate that, on average, UOT shows improvement over both Euclidean and
OT-based methods as verified by statistical hypothesis tests. In particular, on
the MedMNIST datasets, UOT outperforms OT in classification 81\% of the time.
For clustering MedMNIST, UOT outperforms OT 83\% of the time and outperforms
both other metrics 58\% of the time.
Ссылки и действия
Дополнительные ресурсы: