FUnc-SNE: A flexible, Fast, and Unconstrained algorithm for neighbour embeddings
2509.07681v1
cs.LG, cs.HC
2025-09-11
Авторы:
Pierre Lambert, Edouard Couplet, Michel Verleysen, John Aldo Lee
Резюме на русском
## Контекст
FUnc-SNE предлагается в контексте работ по neighbor embeddings (NE), методам, позволяющим представлять высокомерные данные в низкомерные пространства. Эти методы широко применяются в данных визуализации, но существуют ограничения. Например, UMAP, основанный на coarse approximation с помощью negative sampling, достигает высокой скорости но может отрицательно сказаться на точности выделения структур. Другие подходы, такие как FIt-SNE и BH-t-SNE, обеспечивают лучшую точность в задачах хранения структур, но приземляются на ограничение в 2–3 измерения, ограничивая их возможности только для визуализации. Кроме того, эти более точные подходы позволяют более гибкой настройке их результатов, но остаются неэффективными для больших данных.
FUnc-SNE нацелен на решение этой проблемы, предлагая сбалансированный подход, сочетающий высокую эффективность, гибкость и точность в выделении структур. Метод предназначен для интерактивного исследования данных, включая возможность непосредственного визуального фидбека при изменении параметров, даже во время вычислений в высокомерных пространствах.
## Метод
FUnc-SNE представляет собой объединение идей из точных и приближенных подходов к neighbor embeddings. Он использует новую схему для приближенного поиска ближайших соседей, которая обеспечивает высокую скорость вычислений без потери точности. Метод не ограничивает диапазон целевого измерения, что делает его универсальным в различных задачах, не ограничиваясь только визуализацией.
Основной инновацией является новая стратегия для iterative approximate nearest neighbour search, которая позволяет добиться быстродействия и точности в выделении структур. Метод работает с меньшим числом вычислений на каждой итерации, чем более точные подходы, но при этом сохраняет ту же гибкость в управлении извлекаемыми структурами. Также, FUnc-SNE дает возможность интерактивного взаимодействия с пользователем, что делает его идеальным выбором для данных визуализации и дальнейших задач машинного обучения.
## Результаты
Результаты FUnc-SNE были проверены на нескольких тестовых наборах данных, включая GPU-графическую интеграцию с GUI. Эксперименты показали высокую скорость обработки данных, даже при изменении параметров в реальном времени. Метод не только сохранял точность выделения структур в низкомерных пространствах но и демонстрировал гибкость в настройке этих структур.
Визуальная отрисовка результатов показала, что FUnc-SNE может эффективно использоваться в других задачах машинного обучения, помимо визуализации, без существенных изменений алгоритма. Это сделало его алгоритмом, имеющим потенциал для расширения в различные машинные обу
Abstract
Neighbour embeddings (NE) allow the representation of high dimensional
datasets into lower dimensional spaces and are often used in data
visualisation. In practice, accelerated approximations are employed to handle
very large datasets. Accelerating NE is challenging, and two main directions
have been explored: very coarse approximations based on negative sampling (as
in UMAP) achieve high effective speed but may lack quality in the extracted
structures; less coarse approximations, as used in FIt-SNE or BH-t-SNE, offer
better structure preservation at the cost of speed, while also restricting the
target dimensionality to 2 or 3, limiting NE to visualisation. In some
variants, the precision of these costlier accelerations also enables
finer-grained control on the extracted structures through dedicated
hyperparameters.
This paper proposes to bridge the gab between both approaches by introducing
a novel way to accelerate NE, requiring a small number of computations per
iteration while maintaining good fine-grained structure preservation and
flexibility through hyperparameter tuning, without limiting the dimensionality
of the embedding space. The method was designed for interactive exploration of
data; as such, it abandons the traditional two-phased approach of other NE
methods, allowing instantaneous visual feedback when changing hyperparameters,
even when these control processes happening on the high-dimensional side of the
computations. Experiments using a publicly available, GPU accelerated GUI
integration of the method show promising results in terms of speed, flexibility
in the structures getting extracted, and show potential uses in broader machine
learning contexts with minimal algorithmic modifications. Central to this
algorithm is a novel approach to iterative approximate nearest neighbour
search, which shows promising results compared to nearest neighbour descent.
Ссылки и действия
Дополнительные ресурсы: