ViTCAE: ViT-based Class-conditioned Autoencoder
2509.16554v1
cs.LG, cs.CV
2025-09-24
Авторы:
Vahid Jebraeeli, Hamid Krim, Derya Cansever
Резюме на русском
## Контекст
В исследованиях по визуальной обработке данных возникают проблемы с эффективным использованием глобальных компонент, таких как Class token в Vision Transformer (ViT). Он часто остается недостаточно эффективным в генерировании и оптимизации. Ограниченность статических механизмов внимания и неэффективный потребление ресурсов являются ключевыми проблемами. Мотивация заключается в развитии более эффективной системы генеративного анализа, которая могла бы объединить глобальные семантические свойства с локальными деталями с помощью усовершенствованных механизмов адаптивного внимания.
## Метод
В рамках подхода ViTCAE (ViT-based Class-conditioned Autoencoder) Class token превращается в генерирующую сущность, управляющую представлением локальных патчей. Для этого Class token мапится на глобальные переменные, которые влияют на распределение локальных переменных. Основным инструментом является механизм адаптивного внимания, основанный на динамике токенов, вдохновленной теорией о динамике мнений. В этой модели каждый внимательный головной нерв (attention head) рассматривается как система с диагностическими условиями для оптимального взаимодействия. Температурный стабилизатор применяется для достижения говорительного равновесия между головами. Более того, развита техника принудительного отбора голов, которая удаляет неэффективные внимания в процессе обучения.
## Результаты
Используемые данные включали в себя различные обучающие и тестовые наборы, где применялась архитектура ViTCAE. Эксперименты показали, что использование глобального представления Class token улучшает качество сгенерированных изображений. Особенно заметное улучшение было замечено в задачах свертки, где адаптивное внимание способствовало более точной оптимизации задач. Несколько метрик, такие как доля ошибок и FID (Frechet Inception Distance), были использованы для оценки качества. Эти метрики показали превосходство ViTCAE над существующими моделями.
## Значимость
Предложенная модель имеет широкое применение в генеративных задачах, таких как детекция и классификация объектов, а также в задачах синтеза изображений. Внедрение адаптивного внимания и увеличение эффективности обучения делают ViTCAE привлекательным для реализации в реальных системах. Особенно стоит выделить преимущества в скорости и точности, а также возможность уменьшения расходов на вычисления благодаря удалению ненужных голов.
## Выводы
Результаты ViTCAE показывают, что этот подход значительно улучшает качество генеративных моделей на основе ViT. Он обеспечивает более эффективное и гибкое использование глобальных семантических свойств. В дальнейших исследованиях
Abstract
Vision Transformer (ViT) based autoencoders often underutilize the global
Class token and employ static attention mechanisms, limiting both generative
control and optimization efficiency. This paper introduces ViTCAE, a framework
that addresses these issues by re-purposing the Class token into a generative
linchpin. In our architecture, the encoder maps the Class token to a global
latent variable that dictates the prior distribution for local, patch-level
latent variables, establishing a robust dependency where global semantics
directly inform the synthesis of local details. Drawing inspiration from
opinion dynamics, we treat each attention head as a dynamical system of
interacting tokens seeking consensus. This perspective motivates a
convergence-aware temperature scheduler that adaptively anneals each head's
influence function based on its distributional stability. This process enables
a principled head-freezing mechanism, guided by theoretically-grounded
diagnostics like an attention evolution distance and a consensus/cluster
functional. This technique prunes converged heads during training to
significantly improve computational efficiency without sacrificing fidelity. By
unifying a generative Class token with an adaptive attention mechanism rooted
in multi-agent consensus theory, ViTCAE offers a more efficient and
controllable approach to transformer-based generation.
Ссылки и действия
Дополнительные ресурсы: