Neural Network Acceleration on MPSoC board: Integrating SLAC's SNL, Rogue Software and Auto-SNL

2508.21739v1 cs.LG, cs.AI, cs.AR 2025-09-02

Авторы:

Hamza Ezzaoui Rahali, Abhilasha Dave, Larry Ruckman, Mohammad Mehdi Rahimifar, Audrey C. Therrien, James J. Russel, Ryan T. Herbst

Резюме на русском

## Контекст С Free Electron Laser (FEL) LCLS-II будет генерировать лучи X-ray с частотой до 1 MHz, при этом детекторы будут создавать потоки данных, превышающие 1 TB/s. Эта скорость обработки данных представляет собой огромный технический вызов, так как существующие инфраструктуры трансмиссии и хранения данных становятся просто недоступными по цене. Машинное обучение (ML) может стать решением для реального времени, но традиционные решения не могут справиться с такими высокими скоростями потока данных из-за высокой задержки. Чтобы решить эти проблемы, SLAC разработала SLAC Neural Network Library (SNL) - специальный фреймворк для развертывания моделей нейронных сетей на Field-Programmable Gate Arrays (FPGA). SNL позволяет динамически обновлять веса моделей без перекомпиляции FPGA, что делает ее подходящей для применения в адаптивных обучающих системах. Для удобства и доступности мы предлагаем Auto-SNL, расширение Python, которое легко преобразует модели Python в код SNL. ## Метод SNL - это фреймворк, который позволяет развертывать модели нейронных сетей на FPGA с динамическим обновлением весов. Используется методология High-Level Synthesis (HLS), которая позволяет писать модели в Python, а затем генерировать код для FPGA. Мы также внедрили Auto-SNL - расширение Python, которое автоматически преобразует модели в код HLS, совместимый с SNL. Этот подход позволяет уменьшить затраты на разработку и повысить эффективность. Мы провели эксперименты на Xilinx ZCU102 FPGA, сравнив SNL с hls4ml, текущим лидером в этой области. Мы протестировали несколько моделей нейронных сетей, различных fixed-point precisions и конфигураций синтеза. ## Результаты Мы провели эксперименты на Xilinx ZCU102 FPGA и сравнили SNL с hls4ml. Результаты показали, что SNL достигает конкурентных или лучших результатов по задержкам в большинстве тестовых моделей нейронных сетей. В некоторых случаях SNL также уменьшил потребление FPGA ресурсов. Это демонстрирует универсальность SNL в различных областях, включая высокоэнергетическую физику, медицинскую импедианту, робототехнику и др. Мы показали, что SNL может обрабатывать большие потоки данных в режиме реального времени, что делает его подходящим для систем с низкими задержками. ## Значимость Мы применили нашу разработку к различным областям, включая high-energy physics, medical imaging, robotics, и др. Использование SNL позволит эффективно обрабатывать большие потоки данных в реальном времени, что может быть применено в различных приложениях, от обработки изображений до распознавания объектов. Это делает SNL перспективным инструментом для развития систем в реальном времени. ## Выводы Мы доказали, что SNL может стать эффективным решением для реального времени, позволяя обрабатывать большие потоки данных

Abstract

The LCLS-II Free Electron Laser (FEL) will generate X-ray pulses for beamline experiments at rates of up to 1~MHz, with detectors producing data throughputs exceeding 1 TB/s. Managing such massive data streams presents significant challenges, as transmission and storage infrastructures become prohibitively expensive. Machine learning (ML) offers a promising solution for real-time data reduction, but conventional implementations introduce excessive latency, making them unsuitable for high-speed experimental environments. To address these challenges, SLAC developed the SLAC Neural Network Library (SNL), a specialized framework designed to deploy real-time ML inference models on Field-Programmable Gate Arrays (FPGA). SNL's key feature is the ability to dynamically update model weights without requiring FPGA resynthesis, enhancing flexibility for adaptive learning applications. To further enhance usability and accessibility, we introduce Auto-SNL, a Python extension that streamlines the process of converting Python-based neural network models into SNL-compatible high-level synthesis code. This paper presents a benchmark comparison against hls4ml, the current state-of-the-art tool, across multiple neural network architectures, fixed-point precisions, and synthesis configurations targeting a Xilinx ZCU102 FPGA. The results showed that SNL achieves competitive or superior latency in most tested architectures, while in some cases also offering FPGA resource savings. This adaptation demonstrates SNL's versatility, opening new opportunities for researchers and academics in fields such as high-energy physics, medical imaging, robotics, and many more.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Neural Network Acceleration on MPSoC board: Integrating SLAC's SNL, Rogue Software and Auto-SNL

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PrefixGPT: Prefix Adder Optimization by a Generative Pre-trained Transformer

AnaFlow: Agentic LLM-based Workflow for Reasoning-Driven Explainable and Sample-...

APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM Accelerati...

Quantized Neural Networks for Microcontrollers: A Comprehensive Review of Method...

Extending Straight-Through Estimation for Robust Neural Networks on Analog CIM H...

Навигация