ViTCAE: ViT-based Class-conditioned Autoencoder

2509.16554v1 cs.LG, cs.CV 2025-09-24

Авторы:

Vahid Jebraeeli, Hamid Krim, Derya Cansever

Резюме на русском

## Контекст В исследованиях по визуальной обработке данных возникают проблемы с эффективным использованием глобальных компонент, таких как Class token в Vision Transformer (ViT). Он часто остается недостаточно эффективным в генерировании и оптимизации. Ограниченность статических механизмов внимания и неэффективный потребление ресурсов являются ключевыми проблемами. Мотивация заключается в развитии более эффективной системы генеративного анализа, которая могла бы объединить глобальные семантические свойства с локальными деталями с помощью усовершенствованных механизмов адаптивного внимания. ## Метод В рамках подхода ViTCAE (ViT-based Class-conditioned Autoencoder) Class token превращается в генерирующую сущность, управляющую представлением локальных патчей. Для этого Class token мапится на глобальные переменные, которые влияют на распределение локальных переменных. Основным инструментом является механизм адаптивного внимания, основанный на динамике токенов, вдохновленной теорией о динамике мнений. В этой модели каждый внимательный головной нерв (attention head) рассматривается как система с диагностическими условиями для оптимального взаимодействия. Температурный стабилизатор применяется для достижения говорительного равновесия между головами. Более того, развита техника принудительного отбора голов, которая удаляет неэффективные внимания в процессе обучения. ## Результаты Используемые данные включали в себя различные обучающие и тестовые наборы, где применялась архитектура ViTCAE. Эксперименты показали, что использование глобального представления Class token улучшает качество сгенерированных изображений. Особенно заметное улучшение было замечено в задачах свертки, где адаптивное внимание способствовало более точной оптимизации задач. Несколько метрик, такие как доля ошибок и FID (Frechet Inception Distance), были использованы для оценки качества. Эти метрики показали превосходство ViTCAE над существующими моделями. ## Значимость Предложенная модель имеет широкое применение в генеративных задачах, таких как детекция и классификация объектов, а также в задачах синтеза изображений. Внедрение адаптивного внимания и увеличение эффективности обучения делают ViTCAE привлекательным для реализации в реальных системах. Особенно стоит выделить преимущества в скорости и точности, а также возможность уменьшения расходов на вычисления благодаря удалению ненужных голов. ## Выводы Результаты ViTCAE показывают, что этот подход значительно улучшает качество генеративных моделей на основе ViT. Он обеспечивает более эффективное и гибкое использование глобальных семантических свойств. В дальнейших исследованиях

Abstract

Vision Transformer (ViT) based autoencoders often underutilize the global Class token and employ static attention mechanisms, limiting both generative control and optimization efficiency. This paper introduces ViTCAE, a framework that addresses these issues by re-purposing the Class token into a generative linchpin. In our architecture, the encoder maps the Class token to a global latent variable that dictates the prior distribution for local, patch-level latent variables, establishing a robust dependency where global semantics directly inform the synthesis of local details. Drawing inspiration from opinion dynamics, we treat each attention head as a dynamical system of interacting tokens seeking consensus. This perspective motivates a convergence-aware temperature scheduler that adaptively anneals each head's influence function based on its distributional stability. This process enables a principled head-freezing mechanism, guided by theoretically-grounded diagnostics like an attention evolution distance and a consensus/cluster functional. This technique prunes converged heads during training to significantly improve computational efficiency without sacrificing fidelity. By unifying a generative Class token with an adaptive attention mechanism rooted in multi-agent consensus theory, ViTCAE offers a more efficient and controllable approach to transformer-based generation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ViTCAE: ViT-based Class-conditioned Autoencoder

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Studying Various Activation Functions and Non-IID Data for Machine Learning Mode...

Feature Engineering vs. Deep Learning for Automated Coin Grading: A Comparative ...

Rethinking Decoupled Knowledge Distillation: A Predictive Distribution Perspecti...

Value Gradient Guidance for Flow Matching Alignment

Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe

Навигация