Optimizing Neural Networks with Learnable Non-Linear Activation Functions via Lookup-Based FPGA Acceleration

2508.17069v1 cs.AR, cs.AI 2025-08-27

Авторы:

Mengyuan Yin, Benjamin Chen Ming Choong, Chuping Qu, Rick Siow Mong Goh, Weng-Fai Wong, Tao Luo

Резюме на русском

## Контекст На передовой интеллектуальной технике возникают все более строгие требования к энергоэффективности и высокой точности. Одним из ключевых инструментов являются сети с нелинейными активационными функциями, которые улучшают точность и интерпретируемость моделей. Однако такие функции часто требуют высокой вычислительной сложности, что не допускается в системах с ограниченными ресурсами, таких как низкоуровневые устройства ИИ. Это приводит к проблемам в интеграции этих моделей с энергоэффективными системами. ## Метод Наш метод основывается на подходе, использующем реconfigurable lookup table для FPGA. Мы используем fine-grained quantization и adaptive lookup tables для точного представления и вычисления необходимых функций. Это позволяет сократить время вычислений и энергопотребление, обеспечив высокую точность. Также мы разработали алгоритм для dynamic hardware specialization, чтобы обеспечить оптимизацию для различных моделей и данных во время выполнения. Это гарантирует эффективность и адаптивность наших решений. ## Результаты Мы провели эксперименты с Kolmogorov-Arnold Networks (KANs), в которых нелинейные активационные функции играют ключевую роль. Наши результаты показали, что FPGA-based design эффективно обрабатывает высокое число активационных функций, демонстрируя скорость вычислений, превосходящую edge CPUs и GPUs в $10^4$ раз. Это достигается без потери точности и при минимальном затратном использовании ресурсов. ## Значимость Наш подход имеет широкие применения в системах с ограниченными ресурсами, таких как edge AI, IoT, и устройства с требованиями к энергоэффективности. Он обеспечивает высокую точность, быструю обработку и энергоэффективность, позволяя развертывать сложные модели с нелинейными функциями на устройствах с ограниченной мощностью. Это позволяет улучшить энергоэффективность и точность в реальном времени, что крайне важно для приложений в real-time AI. ## Выводы Наша работа показала, что FPGA-based lookup table позволяет эффективно решать проблему вычислительной сложности нелинейных функций в моделях AI на энергоэффективных устройствах. Мы планируем дальнейшие исследования для расширения этого подхода на другие модели и устройства, чтобы повысить его широкое применение в AI-системах.

Abstract

Learned activation functions in models like Kolmogorov-Arnold Networks (KANs) outperform fixed-activation architectures in terms of accuracy and interpretability; however, their computational complexity poses critical challenges for energy-constrained edge AI deployments. Conventional CPUs/GPUs incur prohibitive latency and power costs when evaluating higher order activations, limiting deployability under ultra-tight energy budgets. We address this via a reconfigurable lookup architecture with edge FPGAs. By coupling fine-grained quantization with adaptive lookup tables, our design minimizes energy-intensive arithmetic operations while preserving activation fidelity. FPGA reconfigurability enables dynamic hardware specialization for learned functions, a key advantage for edge systems that require post-deployment adaptability. Evaluations using KANs - where unique activation functions play a critical role - demonstrate that our FPGA-based design achieves superior computational speed and over $10^4$ times higher energy efficiency compared to edge CPUs and GPUs, while maintaining matching accuracy and minimal footprint overhead. This breakthrough positions our approach as a practical enabler for energy-critical edge AI, where computational intensity and power constraints traditionally preclude the use of adaptive activation networks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Optimizing Neural Networks with Learnable Non-Linear Activation Functions via Lookup-Based FPGA Acceleration

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Declarative Synthesis and Multi-Objective Optimization of Stripboard Circuit Lay...

GAVINA: flexible aggressive undervolting for bit-serial mixed-precision DNN acce...

R3A: Reliable RTL Repair Framework with Multi-Agent Fault Localization and Stoch...

Comprehensive Design Space Exploration for Tensorized Neural Network Hardware Ac...

R3A: Reliable RTL Repair Framework with Multi-Agent Fault Localization and Stoch...

Навигация