MaRVIn: A Cross-Layer Mixed-Precision RISC-V Framework for DNN Inference, from ISA Extension to Hardware Acceleration
2509.15187v1
cs.LG, cs.AR
2025-09-20
Авторы:
Giorgos Armeniakos, Alexis Maras, Sotirios Xydis, Dimitrios Soudris
Резюме на русском
#### Контекст
Настоящие технологии в области нейронных сетей (NN) становятся все более сложными, при этом требуют большой вычислительной мощности и энергоэффективности. Одной из ключевых проблем является эффективность выполнения сетей на микропроцессорах, особенно в случае многопроцессорных вычислений. Технологии уменьшения точности (quantization) и смешанных прецизий (mixed-precision) позволяют значительно сократить энергопотребление и увеличить скорость выполнения, сохраняя при этом приемлемую точность. Однако, существующие RISC-V микропроцессоры не достаточно эффективно поддерживают исполнение таких сетей, из-за отсутствия соответствующих расширений инструкционных множеств (ISA) и оптимизаций на уровне аппаратуры. Это приводит к потере эффективности в вычислениях и снижению технологического прогресса в области deep learning inference. Мы предлагаем разработку MaRVIn, чтобы устранить эти проблемы и добиться эффективной и энергосохранной работы NN.
#### Метод
Мы предлагаем MaRVIn — кросс-уровневую систему копроектирования программного и аппаратного обеспечения, оптимизированную для RISC-V. На уровне ISA мы добавляем расширения для выполнения смешанных прецизий (2, 4 и 8 бит) для весов и активаций, а также внедряем многопайление для уменьшения задержек выполнения. На уровне аппаратного обеспечения, мы расширяем ALU для поддержки конфигурируемой точности, включая soft SIMD для эффективного выполнения 2-битных операций. Для повышения энергоэффективности мы используем технологию скалирования напряжения. Кроме того, мы предлагаем метод оптимизации сжатия моделей (pruning-aware fine-tuning) и градиентный поиск лучших вариантов микроархитектуры (greedy-based DSE) для эффективного выбора микроархитектурных решений.
#### Результаты
Мы проводили ряд экспериментов на широко известных DNN, таких как CIFAR10 и ImageNet. Наши результаты показывают, что MaRVIn обеспечивает скорость выполнения до 17.6x быстрее с менее чем 1% потери точности. Мы также показали, что наше решение выигрывает над имеющимися ISA-agnostic RISC-V ядрами, достигая до 1.8 TOPs/W. Эти результаты демонстрируют высокую эффективность и энергосберегающую способность нашей системы в интерпретации deep learning.
#### Значимость
MaRVIn может использоваться в различных приложениях, где необходима высокая производительность и энергоэффективность, включая беспилотные технологии, мобильные устройства и IoT. Он предоставляет ряд преимуществ, таких как более быстрая и эффективная работа с сетями, уменьшение затрат на вычисления и энергопотребление. Это может привести к значительным преиму
Abstract
The evolution of quantization and mixed-precision techniques has unlocked new
possibilities for enhancing the speed and energy efficiency of NNs. Several
recent studies indicate that adapting precision levels across different
parameters can maintain accuracy comparable to full-precision models while
significantly reducing computational demands. However, existing embedded
microprocessors lack sufficient architectural support for efficiently executing
mixed-precision NNs, both in terms of ISA extensions and hardware design,
resulting in inefficiencies such as excessive data packing/unpacking and
underutilized arithmetic units. In this work, we propose novel ISA extensions
and a micro-architecture implementation specifically designed to optimize
mixed-precision execution, enabling energy-efficient deep learning inference on
RISC-V architectures. We introduce MaRVIn, a cross-layer hardware-software
co-design framework that enhances power efficiency and performance through a
combination of hardware improvements, mixed-precision quantization, ISA-level
optimizations, and cycle-accurate emulation. At the hardware level, we enhance
the ALU with configurable mixed-precision arithmetic (2, 4, 8 bits) for
weights/activations and employ multi-pumping to reduce execution latency while
implementing soft SIMD for efficient 2-bit ops. At the software level, we
integrate a pruning-aware fine-tuning method to optimize model compression and
a greedy-based DSE approach to efficiently search for Pareto-optimal
mixed-quantized models. Additionally, we incorporate voltage scaling to boost
the power efficiency of our system. Our experimental evaluation over widely
used DNNs and datasets, such as CIFAR10 and ImageNet, demonstrates that our
framework can achieve, on average, 17.6x speedup for less than 1% accuracy loss
and outperforms the ISA-agnostic state-of-the-art RISC-V cores, delivering up
to 1.8 TOPs/W.
Ссылки и действия
Дополнительные ресурсы: