MaRVIn: A Cross-Layer Mixed-Precision RISC-V Framework for DNN Inference, from ISA Extension to Hardware Acceleration

2509.15187v1 cs.LG, cs.AR 2025-09-20
Авторы:

Giorgos Armeniakos, Alexis Maras, Sotirios Xydis, Dimitrios Soudris

Резюме на русском

#### Контекст Настоящие технологии в области нейронных сетей (NN) становятся все более сложными, при этом требуют большой вычислительной мощности и энергоэффективности. Одной из ключевых проблем является эффективность выполнения сетей на микропроцессорах, особенно в случае многопроцессорных вычислений. Технологии уменьшения точности (quantization) и смешанных прецизий (mixed-precision) позволяют значительно сократить энергопотребление и увеличить скорость выполнения, сохраняя при этом приемлемую точность. Однако, существующие RISC-V микропроцессоры не достаточно эффективно поддерживают исполнение таких сетей, из-за отсутствия соответствующих расширений инструкционных множеств (ISA) и оптимизаций на уровне аппаратуры. Это приводит к потере эффективности в вычислениях и снижению технологического прогресса в области deep learning inference. Мы предлагаем разработку MaRVIn, чтобы устранить эти проблемы и добиться эффективной и энергосохранной работы NN. #### Метод Мы предлагаем MaRVIn — кросс-уровневую систему копроектирования программного и аппаратного обеспечения, оптимизированную для RISC-V. На уровне ISA мы добавляем расширения для выполнения смешанных прецизий (2, 4 и 8 бит) для весов и активаций, а также внедряем многопайление для уменьшения задержек выполнения. На уровне аппаратного обеспечения, мы расширяем ALU для поддержки конфигурируемой точности, включая soft SIMD для эффективного выполнения 2-битных операций. Для повышения энергоэффективности мы используем технологию скалирования напряжения. Кроме того, мы предлагаем метод оптимизации сжатия моделей (pruning-aware fine-tuning) и градиентный поиск лучших вариантов микроархитектуры (greedy-based DSE) для эффективного выбора микроархитектурных решений. #### Результаты Мы проводили ряд экспериментов на широко известных DNN, таких как CIFAR10 и ImageNet. Наши результаты показывают, что MaRVIn обеспечивает скорость выполнения до 17.6x быстрее с менее чем 1% потери точности. Мы также показали, что наше решение выигрывает над имеющимися ISA-agnostic RISC-V ядрами, достигая до 1.8 TOPs/W. Эти результаты демонстрируют высокую эффективность и энергосберегающую способность нашей системы в интерпретации deep learning. #### Значимость MaRVIn может использоваться в различных приложениях, где необходима высокая производительность и энергоэффективность, включая беспилотные технологии, мобильные устройства и IoT. Он предоставляет ряд преимуществ, таких как более быстрая и эффективная работа с сетями, уменьшение затрат на вычисления и энергопотребление. Это может привести к значительным преиму

Abstract

The evolution of quantization and mixed-precision techniques has unlocked new possibilities for enhancing the speed and energy efficiency of NNs. Several recent studies indicate that adapting precision levels across different parameters can maintain accuracy comparable to full-precision models while significantly reducing computational demands. However, existing embedded microprocessors lack sufficient architectural support for efficiently executing mixed-precision NNs, both in terms of ISA extensions and hardware design, resulting in inefficiencies such as excessive data packing/unpacking and underutilized arithmetic units. In this work, we propose novel ISA extensions and a micro-architecture implementation specifically designed to optimize mixed-precision execution, enabling energy-efficient deep learning inference on RISC-V architectures. We introduce MaRVIn, a cross-layer hardware-software co-design framework that enhances power efficiency and performance through a combination of hardware improvements, mixed-precision quantization, ISA-level optimizations, and cycle-accurate emulation. At the hardware level, we enhance the ALU with configurable mixed-precision arithmetic (2, 4, 8 bits) for weights/activations and employ multi-pumping to reduce execution latency while implementing soft SIMD for efficient 2-bit ops. At the software level, we integrate a pruning-aware fine-tuning method to optimize model compression and a greedy-based DSE approach to efficiently search for Pareto-optimal mixed-quantized models. Additionally, we incorporate voltage scaling to boost the power efficiency of our system. Our experimental evaluation over widely used DNNs and datasets, such as CIFAR10 and ImageNet, demonstrates that our framework can achieve, on average, 17.6x speedup for less than 1% accuracy loss and outperforms the ISA-agnostic state-of-the-art RISC-V cores, delivering up to 1.8 TOPs/W.

Ссылки и действия