SpikingBrain Technical Report: Spiking Brain-inspired Large Models

2509.05276v1 cs.LG, cs.AI, cs.CL 2025-09-09
Авторы:

Yuqi Pan, Yupeng Feng, Jinghao Zhuang, Siyu Ding, Zehao Liu, Bohan Sun, Yuhong Chou, Han Xu, Xuerui Qiu, Anlin Deng, Anjie Hu, Peng Zhou, Man Yao, Jibin Wu, Jian Yang, Guoliang Sun, Bo Xu, Guoqi Li

Резюме на русском

#### Контекст Построение больших трансформер-моделей является ключевым решением для обработки естественного языка и других задач, но существуют значительные проблемы. Обучение таких моделей требует значительных вычислительных ресурсов, а процесс инференса требует большого объема памяти. Эти ограничения становятся более заметными при работе с длинными контекстами. Большинство существующих моделей ориентированы на архитектуру NVIDIA, что затрудняет их развертывание на других платформах. Кроме того, необходимость улучшить эффективность обучения и использования моделей для длинных контекстов ставит перед исследователями новые вызовы. #### Метод Мы представляем SpikingBrain — семейство моделей, основанных на идеях биоинспирированного моделирования. SpikingBrain использует MetaX GPU-кластер для разработки моделей с 7 миллиардами параметров (SpikingBrain-7B) и 76 миллиардов параметров (SpikingBrain-76B). Методология включает: 1. **Модельная архитектура**: включает линейные и гибридно-линейные архитектуры внимательных слоёв, адаптированные для работы с длинными контекстами. 2. **Алгоритмические оптимизации**: использование эффективных тренировочных цепочек и специального фреймворка для кодирования спайков. 3. **Системные оптимизации**: настроенные для MetaX-хардвара фреймворки, библиотеки операторов и стратегии параллелизма. #### Результаты Мы проводили эксперименты с двумя моделями SpikingBrain на MetaX C550-GPUs. Модель SpikingBrain-7B достигла скорости обработки последовательностей до 4 миллионов токенов с уменьшением Time to First Token (TTFT) в 100 раз. Модель SpikingBrain-76B показала возможность работы в гибридной архитектуре Mixture of Experts (MoE), которая повышает производительность и эффективность. Эти модели показали значительную эффективность с точки зрения использования вычислительных ресурсов и оптимизации памяти. #### Значимость SpikingBrain модели показывают, что биоинспирированные механизмы могут быть эффективными для обработки длинных контекстов в небольших моделях. Они улучшают производительность и уменьшают энергопотребление. Модели могут быть применены в сценариях, требующих длинных контекстов и ограниченных вычислительных мощностей. Будущие исследования будут сфокусированы на улучшении моделей и их применении в реальных сценариях. #### Выводы SpikingBrain является крупным шагом в области эффективного и мощного обучения крупных моделей. Мы доказали, что модели биоинспирированного типа могут представлять собой альтернативу традиционным трансформерам. Будущие исследования будут ориентированы на повышение производительности моделей и их применение

Abstract

Mainstream Transformer-based large language models face major efficiency bottlenecks: training computation scales quadratically with sequence length, and inference memory grows linearly, limiting long-context processing. Building large models on non-NVIDIA platforms also poses challenges for stable and efficient training. To address this, we introduce SpikingBrain, a family of brain-inspired models designed for efficient long-context training and inference. SpikingBrain leverages the MetaX GPU cluster and focuses on three aspects: (1) Model Architecture: linear and hybrid-linear attention architectures with adaptive spiking neurons; (2) Algorithmic Optimizations: an efficient, conversion-based training pipeline and a dedicated spike coding framework; (3) System Engineering: customized training frameworks, operator libraries, and parallelism strategies tailored to MetaX hardware. Using these techniques, we develop two models: SpikingBrain-7B, a linear LLM, and SpikingBrain-76B, a hybrid-linear MoE LLM. These models demonstrate the feasibility of large-scale LLM development on non-NVIDIA platforms. SpikingBrain achieves performance comparable to open-source Transformer baselines while using only about 150B tokens for continual pre-training. Our models significantly improve long-sequence training efficiency and deliver inference with (partially) constant memory and event-driven spiking behavior. For example, SpikingBrain-7B attains over 100x speedup in Time to First Token for 4M-token sequences. Training remains stable for weeks on hundreds of MetaX C550 GPUs, with the 7B model reaching a Model FLOPs Utilization of 23.4 percent. The proposed spiking scheme achieves 69.15 percent sparsity, enabling low-power operation. Overall, this work demonstrates the potential of brain-inspired mechanisms to drive the next generation of efficient and scalable large model design.

Ссылки и действия