Dissecting Generalized Category Discovery: Multiplex Consensus under Self-Deconstruction

2508.10731v1 cs.CV, cs.LG 2025-08-16
Авторы:

Luyao Tang, Kunze Huang, Chaoqi Chen, Yuxuan Yuan, Chenxin Li, Xiaotong Tu, Xinghao Ding, Yue Huang

Резюме на русском

## Контекст Объяснение категории — один из фундаментальных аспектов человеческого рассудка, позволяющий определять и различать объекты в разных классах. Однако машинные распознаватели в настоящее время сталкиваются с трудностями в обнаружении и классификации объектов в новых категориях. Ученые работают над методами, позволяющими системам машинного обучения не только распознавать известные классы, но и различать и объяснять элементы в новых категориях. Одна из таких задач — обнаружение общей категории (GCD), однако существующие методы ориентируются преимущественно на оптимизацию функций. Мы предлагаем инновационный подход, основанный на человеческом мышлении при понимании новых объектов: разделение объектов на визуальные примитивы и поиск кросс-знаний. ## Метод Мы предлагаем ConGCD, который использует новый подход к обнаружению общих категорий с помощью декомиляции объекта на визуальные примитивы и эстрадирования классовых признаков. ConGCD декомпозирует входной объект на высокоуровневые семантические элементы, устанавливая связи между классами через эти примитивы. Мы также вводим два типа консенсусных блоков: декомпозиционные и контекстные, которые способствуют пониманию значимых признаков и динамической оптимизации структуры решения. Мы также предлагаем механизм динамической оптимизации, который позволяет системе принимать лучшие решения на основе динамического выбора вариантов. Это новая модель, которая расширяет возможности машинного обучения в области обобщенного обнаружения классов. ## Результаты Мы проверили эффективность ConGCD на нескольких бенчмарках, включая coarse- и fine-grained категории. Мы проверили его в задаче универсального распознавания объектов, где он показал значительные улучшения по сравнению с другими моделями, использующими оптимизацию функций. Мы также проверили его на данных, включающих в себя различные классы, и продемонстрировали, что он может обнаруживать и разделять объекты в новых категориях. Наши результаты указывают на то, что ConGCD может стать прорывом в области обнаружения общих категорий и запустить новую эру в этой области. ## Значимость Мы показываем, что ConGCD может быть применен в различных областях, включая распознавание изображений, когнитивные модели и обработку естественных языков. Он предлагает преимущества в том, что он может работать с несколькими классами и в качестве динамичного метода, что делает его более гибким. Это может повысить точность распознавания и облегчить обучение машинных систем для работы в новых областях. Это направляет нас к новым возможностям в области улучшения машинного распо

Abstract

Human perceptual systems excel at inducing and recognizing objects across both known and novel categories, a capability far beyond current machine learning frameworks. While generalized category discovery (GCD) aims to bridge this gap, existing methods predominantly focus on optimizing objective functions. We present an orthogonal solution, inspired by the human cognitive process for novel object understanding: decomposing objects into visual primitives and establishing cross-knowledge comparisons. We propose ConGCD, which establishes primitive-oriented representations through high-level semantic reconstruction, binding intra-class shared attributes via deconstruction. Mirroring human preference diversity in visual processing, where distinct individuals leverage dominant or contextual cues, we implement dominant and contextual consensus units to capture class-discriminative patterns and inherent distributional invariants, respectively. A consensus scheduler dynamically optimizes activation pathways, with final predictions emerging through multiplex consensus integration. Extensive evaluations across coarse- and fine-grained benchmarks demonstrate ConGCD's effectiveness as a consensus-aware paradigm. Code is available at github.com/lytang63/ConGCD.

Ссылки и действия