Neutralizing Token Aggregation via Information Augmentation for Efficient Test-Time Adaptation
2508.03388v2
cs.CV
2025-08-09
Авторы:
Yizhe Xiong, Zihan Zhou, Yiwen Liang, Hui Chen, Zijia Lin, Tianxiang Hao, Fan Zhang, Jungong Han, Guiguang Ding
Резюме на русском
**Резюме**
В тест-тайм адаптации (TTA) для Vision Transformers (ViT) становится ключевым решать проблему высокого вычислительного объема, что ограничивает применение TTA в реальном времени. Наиболее эффективными показались методы агрегирования токенов, но они приводят к потере информации и снижению качества. В статье предложен новый подход **NAVIA** (Neutralizing Token Aggregation via Information Augmentation), который стремится оптимизировать агрегирование токенов, сохранив высокую точность. Используя теоретический анализ на основе мультипликативного информационного подхода, авторы показали, что информационная потеря может быть восстановлена с помощью добавления информативных смещений в [CLS]-токены на ранних слоях ViT. Это решение демонстрирует выигрыш в точности над текущими методами на различных бенчмарках, при этом сокращая затраты вычислительных ресурсов на 20%. Таким образом, NAVIA является эффективным и практичным способом решения проблемы эффективной TTA.
Abstract
Test-Time Adaptation (TTA) has emerged as an effective solution for adapting
Vision Transformers (ViT) to distribution shifts without additional training
data. However, existing TTA methods often incur substantial computational
overhead, limiting their applicability in resource-constrained real-world
scenarios. To reduce inference cost, plug-and-play token aggregation methods
merge redundant tokens in ViTs to reduce total processed tokens. Albeit
efficient, it suffers from significant performance degradation when directly
integrated with existing TTA methods. We formalize this problem as Efficient
Test-Time Adaptation (ETTA), seeking to preserve the adaptation capability of
TTA while reducing inference latency. In this paper, we first provide a
theoretical analysis from a novel mutual information perspective, showing that
token aggregation inherently leads to information loss, which cannot be fully
mitigated by conventional norm-tuning-based TTA methods. Guided by this
insight, we propose to \textbf{N}eutralize Token \textbf{A}ggregation
\textbf{v}ia \textbf{I}nformation \textbf{A}ugmentation (\textbf{NAVIA}).
Specifically, we directly augment the [CLS] token embedding and incorporate
adaptive biases into the [CLS] token in shallow layers of ViTs. We
theoretically demonstrate that these augmentations, when optimized via entropy
minimization, recover the information lost due to token aggregation. Extensive
experiments across various out-of-distribution benchmarks demonstrate that
NAVIA significantly outperforms state-of-the-art methods by over 2.5\%, while
achieving an inference latency reduction of more than 20\%, effectively
addressing the ETTA challenge.
Ссылки и действия
Дополнительные ресурсы: