Dimensionally Reduced Open-World Clustering: DROWCULA
2509.07184v1
cs.CV, cs.LG
2025-09-11
Авторы:
Erencem Ozbey, Dimitrios I. Diochnos
Резюме на русском
## Контекст
Область исследования строится на основе проблемы открытого мира (open-world problem) в обучении с учителем, где аннотированные данные являются ключевым элементом. Однако создание таких данных может быть трудоемким и затратным. Более того, в реальном мире могут возникнуть ситуации, когда новые классы появляются неожиданно, даже после того, как много меток было присвоено. Это влечет за собой необходимость развития методов, которые могут работать с неизвестными классами. Открытый мир прикладывает усилия в развитии различных подходов, в том числе семи-супервизированных, но здесь предлагается новый подход, который ориентирован на полностью неучительную (fully unsupervised) модель, способную обнаруживать новые классы.
## Метод
Метод основывается на использовании Vision Transformers, которые применяют механизмы внимания (attention mechanisms) для генерации векторных представлений (embeddings). Эти представления используются для оценки количества классов в данных. Для улучшения качества кластеризации включены методы мантийного обучения (manifold learning), которые позволяют очистить эти векторы от шума, сформировав более точные и отдельные кластеры. Это позволяет достичь высокого уровня кластеризации, даже при неизвестном числе классов.
## Результаты
На экспериментальных данных CIFAR-10, CIFAR-100, ImageNet-100 и Tiny ImageNet, алгоритм показал новые рекорды в кластеризации в открытом мире (open-world clustering). Это было достигнуто как при знании числа классов заранее, так и при его неизвестности. Результаты указывают на большую точность и эффективность алгоритма, по сравнению с другими подходами.
## Значимость
Этот подход может быть применен в различных областях, таких как оптимизация технологий видеонаблюдения, анализ данных больших объемов и агрегация данных на устройствах с ограниченными вычислительными ресурсами. Одним из ключевых преимуществ является свойство работы без необходимости предварительного аннотирования данных. Это может упростить процессы в области ИИ и повысить эффективность решения задач, где недоступны готовые обозначения.
## Выводы
Результаты этого исследования устанавливают новый стандарт для кластеризации в открытом мире. Они открывают новые возможности для развития неучительных методов в области обработки изображений и задач кластеризации. Будущие работы могут быть направлены на расширение этого подхода на другие виды данных, такие как текст или звук, и на добавление дополнительных оптимизаций для улучшения качества и скорости работы.
Abstract
Working with annotated data is the cornerstone of supervised learning.
Nevertheless, providing labels to instances is a task that requires significant
human effort. Several critical real-world applications make things more
complicated because no matter how many labels may have been identified in a
task of interest, it could be the case that examples corresponding to novel
classes may appear in the future. Not unsurprisingly, prior work in this,
so-called, `open-world' context has focused a lot on semi-supervised
approaches.
Focusing on image classification, somehow paradoxically, we propose a fully
unsupervised approach to the problem of determining the novel categories in a
particular dataset. Our approach relies on estimating the number of clusters
using Vision Transformers, which utilize attention mechanisms to generate
vector embeddings. Furthermore, we incorporate manifold learning techniques to
refine these embeddings by exploiting the intrinsic geometry of the data,
thereby enhancing the overall image clustering performance. Overall, we
establish new State-of-the-Art results on single-modal clustering and Novel
Class Discovery on CIFAR-10, CIFAR-100, ImageNet-100, and Tiny ImageNet. We do
so, both when the number of clusters is known or unknown ahead of time. The
code is available at: https://github.com/DROWCULA/DROWCULA.
Ссылки и действия
Дополнительные ресурсы: