Extending Straight-Through Estimation for Robust Neural Networks on Analog CIM Hardware
2508.11940v1
cs.LG, cs.AI, cs.AR
2025-08-19
Авторы:
Yuannuo Feng, Wenyong Zhou, Yuexi Lyu, Yixiang Zhang, Zhengwu Liu, Ngai Wong, Wang Kang
Резюме на русском
## Контекст
Аналоговые Compute-In-Memory (CIM) архитектуры предлагают значительные энергоэффективностные выигрыши для нейронных сетей, однако сталкиваются с трудностями внедрения из-за характерных аппаратных шумов. Интерес к этим архитектурам возникает из-за потребности в энергосберегающих решениях для нейронных сетей, особенно в приложениях с ограниченными ресурсами. Однако существующие методы тренировки, предназначенные для устранения влияния шума, часто основываются на идеализированных моделях шума, которые недостаточно точно отражают реальные аппаратные особенности. Наша работа нацелена на развитие более точных методов тренировки, учитывающих реальные черты аппаратного шума в CIM.
## Метод
Мы расширяем Straight-Through Estimator (STE) фреймворк для внедрения более точной модели шума в процессе обучения. Наша методология разделяет форвардную симуляцию шума от обратного вычисления градиентов. Это позволяет использовать более точные, но теоретически неразрывные модели шума в аналоговых CIM-системах. Мы обосновываем наш подход теоретически, демонстрируя, что он сохраняет ключевую информацию о направлениях градиентов, обеспечивая стабильность оптимизации и эффективность вычислений.
## Результаты
Мы проводили эксперименты на задачах классификации изображений и текстового генератора. Наши результаты показали до 5.3% улучшения точности в классификации изображений, сокращения perplexity на 0.72 в текстовом генераторе, ускорения обучения в 2.2 раза и сокращения пикового использования памяти на 37.9% по сравнению с существующими методами. Эти результаты доказывают эффективность нашего подхода в улучшении качества и производительности обучения на аналоговых CIM-системах.
## Значимость
Наша работа может быть применима в разработке энергоэффективных нейронных сетей для приложений с ограниченными ресурсами, таких как IoT-устройства и мобильные платформы. Она предлагает преимущества в точности и производительности, значительно сокращая влияние шума и улучшая эффективность вычислений. Эти достижения открывают новые пути для развития CIM-технологий и их применения в реальных мировых задачах.
## Выводы
Мы разработали расширенный STE-подход, который эффективно работает с шумом в аналоговых CIM-системах, улучшая качество и производительность обучения. Будущие исследования будут направлены на расширение этого подхода к другим типам нейронных сетей и аппаратных платформам, а также на улучшение способности моделей устойчивости к аппаратным характеристикам.
Abstract
Analog Compute-In-Memory (CIM) architectures promise significant energy
efficiency gains for neural network inference, but suffer from complex
hardware-induced noise that poses major challenges for deployment. While
noise-aware training methods have been proposed to address this issue, they
typically rely on idealized and differentiable noise models that fail to
capture the full complexity of analog CIM hardware variations. Motivated by the
Straight-Through Estimator (STE) framework in quantization, we decouple forward
noise simulation from backward gradient computation, enabling noise-aware
training with more accurate but computationally intractable noise modeling in
analog CIM systems. We provide theoretical analysis demonstrating that our
approach preserves essential gradient directional information while maintaining
computational tractability and optimization stability. Extensive experiments
show that our extended STE framework achieves up to 5.3% accuracy improvement
on image classification, 0.72 perplexity reduction on text generation,
2.2$\times$ speedup in training time, and 37.9% lower peak memory usage
compared to standard noise-aware training methods.
Ссылки и действия
Дополнительные ресурсы: