Optimizing Neural Networks with Learnable Non-Linear Activation Functions via Lookup-Based FPGA Acceleration
2508.17069v1
cs.AR, cs.AI
2025-08-27
Авторы:
Mengyuan Yin, Benjamin Chen Ming Choong, Chuping Qu, Rick Siow Mong Goh, Weng-Fai Wong, Tao Luo
Резюме на русском
## Контекст
На передовой интеллектуальной технике возникают все более строгие требования к энергоэффективности и высокой точности. Одним из ключевых инструментов являются сети с нелинейными активационными функциями, которые улучшают точность и интерпретируемость моделей. Однако такие функции часто требуют высокой вычислительной сложности, что не допускается в системах с ограниченными ресурсами, таких как низкоуровневые устройства ИИ. Это приводит к проблемам в интеграции этих моделей с энергоэффективными системами.
## Метод
Наш метод основывается на подходе, использующем реconfigurable lookup table для FPGA. Мы используем fine-grained quantization и adaptive lookup tables для точного представления и вычисления необходимых функций. Это позволяет сократить время вычислений и энергопотребление, обеспечив высокую точность. Также мы разработали алгоритм для dynamic hardware specialization, чтобы обеспечить оптимизацию для различных моделей и данных во время выполнения. Это гарантирует эффективность и адаптивность наших решений.
## Результаты
Мы провели эксперименты с Kolmogorov-Arnold Networks (KANs), в которых нелинейные активационные функции играют ключевую роль. Наши результаты показали, что FPGA-based design эффективно обрабатывает высокое число активационных функций, демонстрируя скорость вычислений, превосходящую edge CPUs и GPUs в $10^4$ раз. Это достигается без потери точности и при минимальном затратном использовании ресурсов.
## Значимость
Наш подход имеет широкие применения в системах с ограниченными ресурсами, таких как edge AI, IoT, и устройства с требованиями к энергоэффективности. Он обеспечивает высокую точность, быструю обработку и энергоэффективность, позволяя развертывать сложные модели с нелинейными функциями на устройствах с ограниченной мощностью. Это позволяет улучшить энергоэффективность и точность в реальном времени, что крайне важно для приложений в real-time AI.
## Выводы
Наша работа показала, что FPGA-based lookup table позволяет эффективно решать проблему вычислительной сложности нелинейных функций в моделях AI на энергоэффективных устройствах. Мы планируем дальнейшие исследования для расширения этого подхода на другие модели и устройства, чтобы повысить его широкое применение в AI-системах.
Abstract
Learned activation functions in models like Kolmogorov-Arnold Networks (KANs)
outperform fixed-activation architectures in terms of accuracy and
interpretability; however, their computational complexity poses critical
challenges for energy-constrained edge AI deployments. Conventional CPUs/GPUs
incur prohibitive latency and power costs when evaluating higher order
activations, limiting deployability under ultra-tight energy budgets. We
address this via a reconfigurable lookup architecture with edge FPGAs. By
coupling fine-grained quantization with adaptive lookup tables, our design
minimizes energy-intensive arithmetic operations while preserving activation
fidelity. FPGA reconfigurability enables dynamic hardware specialization for
learned functions, a key advantage for edge systems that require
post-deployment adaptability. Evaluations using KANs - where unique activation
functions play a critical role - demonstrate that our FPGA-based design
achieves superior computational speed and over $10^4$ times higher energy
efficiency compared to edge CPUs and GPUs, while maintaining matching accuracy
and minimal footprint overhead. This breakthrough positions our approach as a
practical enabler for energy-critical edge AI, where computational intensity
and power constraints traditionally preclude the use of adaptive activation
networks.
Ссылки и действия
Дополнительные ресурсы: