STAS: Spatio-Temporal Adaptive Computation Time for Spiking Transformers

2508.14138v1 cs.LG, cs.AI, cs.CV, cs.NE 2025-08-22
Авторы:

Donghwa Kang, Doohyun Kim, Sang-Ki Ko, Jinkyu Lee, Brent ByungHoon Kang, Hyeongboo Baek

Резюме на русском

## Контекст На протяжении последних десятилетий, специально разработанные спикерные нейронные сети (Spiking Neural Networks, SNNs) приобрели важное место в искусственном интеллекте благодаря их энергоэффективности по сравнению с артифициальными нейронными сетями (ANNs). Однако они страдают от высокой задержки и значительного вычислительного накладного расхода, порождаемого своей многоэтапной работой. Несмотря на то, что различные методы динамического вычисления были предложены для уменьшения задержек и расхода, некоторые из них остались неустойчивыми в различных условиях работы. В то же время, статические архитектуры динамического вычисления, несмотря на их потенциал, не могут решить проблему. Кроме того, применение подхода с адаптивным вычислительным временем (Adaptive Computation Time, ACT) к спикерным видюхам-трансформерам (Vision Transformers, ViTs) сталкивается с двумя главными проблемами: нарушением предварительного условия изоморфного времени и статической архитектурой, не приспособленной к этим принципам. STAS (Spatio-Temporal Adaptive computation time for Spiking Transformers) предлагается как решение этих проблем, сочетая статическую архитектуру с динамическим вычислительным политикой. ## Метод STAS предлагает интегрированный модуль разделения волновых патчей (Integrated Spike Patch Splitting, I-SPS), который устанавливает темпоральную стабильность за счет создания единой постановки входных данных. Эта стабильность в свою очередь позволяет использовать адаптивный спикерный самоприслушивающийся модуль (Adaptive Spiking Self-Attention, A-SSA), который выполняет приемущество в двухмерной оптимизации токенов по пространственному и временному осям. Эта гибкость в вычислениях позволяет сократить затраты на вычислительные ресурсы без потери точности. Метод STAS был реализован в различных спикерных трансформерных архитектурах и проверен на таких датасетах, как CIFAR-10, CIFAR-100 и ImageNet. ## Результаты Эксперименты показали, что STAS существенно уменьшает энергозатраты в сравнении с состоянием технологии (SOTA), сокращая ее на 45.9% на CIFAR-10, 43.8% на CIFAR-100 и 30.1% на ImageNet. Это улучшение сочетается с повышением точности распознавания изображений. Таким образом, STAS демонстрирует ключевое преимущество в сочетании эффективности и точности, что делает его привлекательным для применения в спикерных сетях. ## Значимость Помимо энергоэффективности, STAS имеет широкие перспективы применения в задачах визуального распознавания, передачи речи, обработки естественного языка и других областях, где энергоэффективность и высокая точность играют ключевую роль. Благодаря своему универсальному подходу, STAS может быть успешно использован в раз

Abstract

Spiking neural networks (SNNs) offer energy efficiency over artificial neural networks (ANNs) but suffer from high latency and computational overhead due to their multi-timestep operational nature. While various dynamic computation methods have been developed to mitigate this by targeting spatial, temporal, or architecture-specific redundancies, they remain fragmented. While the principles of adaptive computation time (ACT) offer a robust foundation for a unified approach, its application to SNN-based vision Transformers (ViTs) is hindered by two core issues: the violation of its temporal similarity prerequisite and a static architecture fundamentally unsuited for its principles. To address these challenges, we propose STAS (Spatio-Temporal Adaptive computation time for Spiking transformers), a framework that co-designs the static architecture and dynamic computation policy. STAS introduces an integrated spike patch splitting (I-SPS) module to establish temporal stability by creating a unified input representation, thereby solving the architectural problem of temporal dissimilarity. This stability, in turn, allows our adaptive spiking self-attention (A-SSA) module to perform two-dimensional token pruning across both spatial and temporal axes. Implemented on spiking Transformer architectures and validated on CIFAR-10, CIFAR-100, and ImageNet, STAS reduces energy consumption by up to 45.9%, 43.8%, and 30.1%, respectively, while simultaneously improving accuracy over SOTA models.

Ссылки и действия