STAS: Spatio-Temporal Adaptive Computation Time for Spiking Transformers
2508.14138v1
cs.LG, cs.AI, cs.CV, cs.NE
2025-08-22
Авторы:
Donghwa Kang, Doohyun Kim, Sang-Ki Ko, Jinkyu Lee, Brent ByungHoon Kang, Hyeongboo Baek
Резюме на русском
## Контекст
На протяжении последних десятилетий, специально разработанные спикерные нейронные сети (Spiking Neural Networks, SNNs) приобрели важное место в искусственном интеллекте благодаря их энергоэффективности по сравнению с артифициальными нейронными сетями (ANNs). Однако они страдают от высокой задержки и значительного вычислительного накладного расхода, порождаемого своей многоэтапной работой. Несмотря на то, что различные методы динамического вычисления были предложены для уменьшения задержек и расхода, некоторые из них остались неустойчивыми в различных условиях работы. В то же время, статические архитектуры динамического вычисления, несмотря на их потенциал, не могут решить проблему. Кроме того, применение подхода с адаптивным вычислительным временем (Adaptive Computation Time, ACT) к спикерным видюхам-трансформерам (Vision Transformers, ViTs) сталкивается с двумя главными проблемами: нарушением предварительного условия изоморфного времени и статической архитектурой, не приспособленной к этим принципам. STAS (Spatio-Temporal Adaptive computation time for Spiking Transformers) предлагается как решение этих проблем, сочетая статическую архитектуру с динамическим вычислительным политикой.
## Метод
STAS предлагает интегрированный модуль разделения волновых патчей (Integrated Spike Patch Splitting, I-SPS), который устанавливает темпоральную стабильность за счет создания единой постановки входных данных. Эта стабильность в свою очередь позволяет использовать адаптивный спикерный самоприслушивающийся модуль (Adaptive Spiking Self-Attention, A-SSA), который выполняет приемущество в двухмерной оптимизации токенов по пространственному и временному осям. Эта гибкость в вычислениях позволяет сократить затраты на вычислительные ресурсы без потери точности. Метод STAS был реализован в различных спикерных трансформерных архитектурах и проверен на таких датасетах, как CIFAR-10, CIFAR-100 и ImageNet.
## Результаты
Эксперименты показали, что STAS существенно уменьшает энергозатраты в сравнении с состоянием технологии (SOTA), сокращая ее на 45.9% на CIFAR-10, 43.8% на CIFAR-100 и 30.1% на ImageNet. Это улучшение сочетается с повышением точности распознавания изображений. Таким образом, STAS демонстрирует ключевое преимущество в сочетании эффективности и точности, что делает его привлекательным для применения в спикерных сетях.
## Значимость
Помимо энергоэффективности, STAS имеет широкие перспективы применения в задачах визуального распознавания, передачи речи, обработки естественного языка и других областях, где энергоэффективность и высокая точность играют ключевую роль. Благодаря своему универсальному подходу, STAS может быть успешно использован в раз
Abstract
Spiking neural networks (SNNs) offer energy efficiency over artificial neural
networks (ANNs) but suffer from high latency and computational overhead due to
their multi-timestep operational nature. While various dynamic computation
methods have been developed to mitigate this by targeting spatial, temporal, or
architecture-specific redundancies, they remain fragmented. While the
principles of adaptive computation time (ACT) offer a robust foundation for a
unified approach, its application to SNN-based vision Transformers (ViTs) is
hindered by two core issues: the violation of its temporal similarity
prerequisite and a static architecture fundamentally unsuited for its
principles. To address these challenges, we propose STAS (Spatio-Temporal
Adaptive computation time for Spiking transformers), a framework that
co-designs the static architecture and dynamic computation policy. STAS
introduces an integrated spike patch splitting (I-SPS) module to establish
temporal stability by creating a unified input representation, thereby solving
the architectural problem of temporal dissimilarity. This stability, in turn,
allows our adaptive spiking self-attention (A-SSA) module to perform
two-dimensional token pruning across both spatial and temporal axes.
Implemented on spiking Transformer architectures and validated on CIFAR-10,
CIFAR-100, and ImageNet, STAS reduces energy consumption by up to 45.9%, 43.8%,
and 30.1%, respectively, while simultaneously improving accuracy over SOTA
models.