Dimensionally Reduced Open-World Clustering: DROWCULA

2509.07184v1 cs.CV, cs.LG 2025-09-11

Авторы:

Erencem Ozbey, Dimitrios I. Diochnos

Резюме на русском

## Контекст Область исследования строится на основе проблемы открытого мира (open-world problem) в обучении с учителем, где аннотированные данные являются ключевым элементом. Однако создание таких данных может быть трудоемким и затратным. Более того, в реальном мире могут возникнуть ситуации, когда новые классы появляются неожиданно, даже после того, как много меток было присвоено. Это влечет за собой необходимость развития методов, которые могут работать с неизвестными классами. Открытый мир прикладывает усилия в развитии различных подходов, в том числе семи-супервизированных, но здесь предлагается новый подход, который ориентирован на полностью неучительную (fully unsupervised) модель, способную обнаруживать новые классы. ## Метод Метод основывается на использовании Vision Transformers, которые применяют механизмы внимания (attention mechanisms) для генерации векторных представлений (embeddings). Эти представления используются для оценки количества классов в данных. Для улучшения качества кластеризации включены методы мантийного обучения (manifold learning), которые позволяют очистить эти векторы от шума, сформировав более точные и отдельные кластеры. Это позволяет достичь высокого уровня кластеризации, даже при неизвестном числе классов. ## Результаты На экспериментальных данных CIFAR-10, CIFAR-100, ImageNet-100 и Tiny ImageNet, алгоритм показал новые рекорды в кластеризации в открытом мире (open-world clustering). Это было достигнуто как при знании числа классов заранее, так и при его неизвестности. Результаты указывают на большую точность и эффективность алгоритма, по сравнению с другими подходами. ## Значимость Этот подход может быть применен в различных областях, таких как оптимизация технологий видеонаблюдения, анализ данных больших объемов и агрегация данных на устройствах с ограниченными вычислительными ресурсами. Одним из ключевых преимуществ является свойство работы без необходимости предварительного аннотирования данных. Это может упростить процессы в области ИИ и повысить эффективность решения задач, где недоступны готовые обозначения. ## Выводы Результаты этого исследования устанавливают новый стандарт для кластеризации в открытом мире. Они открывают новые возможности для развития неучительных методов в области обработки изображений и задач кластеризации. Будущие работы могут быть направлены на расширение этого подхода на другие виды данных, такие как текст или звук, и на добавление дополнительных оптимизаций для улучшения качества и скорости работы.

Abstract

Working with annotated data is the cornerstone of supervised learning. Nevertheless, providing labels to instances is a task that requires significant human effort. Several critical real-world applications make things more complicated because no matter how many labels may have been identified in a task of interest, it could be the case that examples corresponding to novel classes may appear in the future. Not unsurprisingly, prior work in this, so-called, `open-world' context has focused a lot on semi-supervised approaches. Focusing on image classification, somehow paradoxically, we propose a fully unsupervised approach to the problem of determining the novel categories in a particular dataset. Our approach relies on estimating the number of clusters using Vision Transformers, which utilize attention mechanisms to generate vector embeddings. Furthermore, we incorporate manifold learning techniques to refine these embeddings by exploiting the intrinsic geometry of the data, thereby enhancing the overall image clustering performance. Overall, we establish new State-of-the-Art results on single-modal clustering and Novel Class Discovery on CIFAR-10, CIFAR-100, ImageNet-100, and Tiny ImageNet. We do so, both when the number of clusters is known or unknown ahead of time. The code is available at: https://github.com/DROWCULA/DROWCULA.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Dimensionally Reduced Open-World Clustering: DROWCULA

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация