FUnc-SNE: A flexible, Fast, and Unconstrained algorithm for neighbour embeddings

2509.07681v1 cs.LG, cs.HC 2025-09-11
Авторы:

Pierre Lambert, Edouard Couplet, Michel Verleysen, John Aldo Lee

Резюме на русском

## Контекст FUnc-SNE предлагается в контексте работ по neighbor embeddings (NE), методам, позволяющим представлять высокомерные данные в низкомерные пространства. Эти методы широко применяются в данных визуализации, но существуют ограничения. Например, UMAP, основанный на coarse approximation с помощью negative sampling, достигает высокой скорости но может отрицательно сказаться на точности выделения структур. Другие подходы, такие как FIt-SNE и BH-t-SNE, обеспечивают лучшую точность в задачах хранения структур, но приземляются на ограничение в 2–3 измерения, ограничивая их возможности только для визуализации. Кроме того, эти более точные подходы позволяют более гибкой настройке их результатов, но остаются неэффективными для больших данных. FUnc-SNE нацелен на решение этой проблемы, предлагая сбалансированный подход, сочетающий высокую эффективность, гибкость и точность в выделении структур. Метод предназначен для интерактивного исследования данных, включая возможность непосредственного визуального фидбека при изменении параметров, даже во время вычислений в высокомерных пространствах. ## Метод FUnc-SNE представляет собой объединение идей из точных и приближенных подходов к neighbor embeddings. Он использует новую схему для приближенного поиска ближайших соседей, которая обеспечивает высокую скорость вычислений без потери точности. Метод не ограничивает диапазон целевого измерения, что делает его универсальным в различных задачах, не ограничиваясь только визуализацией. Основной инновацией является новая стратегия для iterative approximate nearest neighbour search, которая позволяет добиться быстродействия и точности в выделении структур. Метод работает с меньшим числом вычислений на каждой итерации, чем более точные подходы, но при этом сохраняет ту же гибкость в управлении извлекаемыми структурами. Также, FUnc-SNE дает возможность интерактивного взаимодействия с пользователем, что делает его идеальным выбором для данных визуализации и дальнейших задач машинного обучения. ## Результаты Результаты FUnc-SNE были проверены на нескольких тестовых наборах данных, включая GPU-графическую интеграцию с GUI. Эксперименты показали высокую скорость обработки данных, даже при изменении параметров в реальном времени. Метод не только сохранял точность выделения структур в низкомерных пространствах но и демонстрировал гибкость в настройке этих структур. Визуальная отрисовка результатов показала, что FUnc-SNE может эффективно использоваться в других задачах машинного обучения, помимо визуализации, без существенных изменений алгоритма. Это сделало его алгоритмом, имеющим потенциал для расширения в различные машинные обу

Abstract

Neighbour embeddings (NE) allow the representation of high dimensional datasets into lower dimensional spaces and are often used in data visualisation. In practice, accelerated approximations are employed to handle very large datasets. Accelerating NE is challenging, and two main directions have been explored: very coarse approximations based on negative sampling (as in UMAP) achieve high effective speed but may lack quality in the extracted structures; less coarse approximations, as used in FIt-SNE or BH-t-SNE, offer better structure preservation at the cost of speed, while also restricting the target dimensionality to 2 or 3, limiting NE to visualisation. In some variants, the precision of these costlier accelerations also enables finer-grained control on the extracted structures through dedicated hyperparameters. This paper proposes to bridge the gab between both approaches by introducing a novel way to accelerate NE, requiring a small number of computations per iteration while maintaining good fine-grained structure preservation and flexibility through hyperparameter tuning, without limiting the dimensionality of the embedding space. The method was designed for interactive exploration of data; as such, it abandons the traditional two-phased approach of other NE methods, allowing instantaneous visual feedback when changing hyperparameters, even when these control processes happening on the high-dimensional side of the computations. Experiments using a publicly available, GPU accelerated GUI integration of the method show promising results in terms of speed, flexibility in the structures getting extracted, and show potential uses in broader machine learning contexts with minimal algorithmic modifications. Central to this algorithm is a novel approach to iterative approximate nearest neighbour search, which shows promising results compared to nearest neighbour descent.

Ссылки и действия