XR-NPE: High-Throughput Mixed-precision SIMD Neural Processing Engine for Extended Reality Perception Workloads

2508.13049v1 cs.AR, cs.AI, cs.CV, eess.IV 2025-08-20
Авторы:

Tejas Chaudhari, Akarsh J., Tanushree Dewangan, Mukul Lokhande, Santosh Kumar Vishvakarma

Резюме на русском

## Контекст Развитие расширенной реальности (XR), включающей виртуальную, дополненную и смешанную реальность, требует высокопроизводительных алгоритмов для обработки чувствительных к задержкам задач, таких как визуально-инитерийная одометрия (VIO), классификация объектов и извлечение взглядов. Эти задачи требуют высокопроизводительных микропроцессоров с эффективными механизмами уменьшения потребления энергии и оптимальным использованием памяти. Существующие решения часто используют 32-разрядную точность, что неэффективно для задач с малой точностью. Целью данной работы является разработка XR-NPE, эффективного микропроцессора с переменной точностью, который может быть применен в ресурсами ограниченных устройствах XR. ## Метод XR-NPE представляет собой микропроцессор с переменной точностью, разработанный на базе SIMD (Single Instruction, Multiple Data) для работы с расширенной реальностью. Оно поддерживает несколько форматов чисел, включая FP4, Posit (4,1), Posit (8,0) и Posit (16,1), позволяя выполнять вычисления с ultra-low bit precision. Разработанная Reconfigurable Mantissa Multiplication and Exponent processing Circuitry (RMMEC) уменьшает расход энергии в SIMD MAC compute engine с помощью selective power gating. Для минимизации потерь точности во время обучения используется quantization-aware training. ## Результаты XR-NPE достигает максимальной частоты работы 1.72 ГГц, с малой плотностью (0.016 мм²) и высокой арифметической плотностью (14 пДж на 28-нанометровую технологию CMOS). Это приводит к сокращению объема на 42%, энергопотреблению на 38% и повышению эффективности вычислений по сравнению с лучшими достижениями современных методов. На VIO-задачах XR-NPE показывает 23% большую энергоэффективность и 4% вышуую плотность вычислений по сравнению со существующими акселераторами. Проектный код для репродуцированности результатов доступен на GitHub: [стартовая ссылка]. ## Значимость XR-NPE может использоваться в различных XR-приложениях, таких как виртуальная и дополненная реальность, а также для задач компьютерного зрения. Это решение обеспечивает высокую эффективность, низкое потребление энергии и переменную точность для различных XR-задач. Благодаря своей гибкости и эффективности, XR-NPE может стать основой для создания следующих поколений устройств XR. ## Выводы XR-NPE доказывает свою эффективность как высокопроизводительный, энергоэффективный и переменно-точный микропроцессор для XR-задач. Он успешно уменьшает потребление энергии и увеличивает вычислительную плотность по сравнению с современными методами. Будущие исследования будут сосредоточены на улучшении точности и увеличени

Abstract

This work proposes XR-NPE, a high-throughput Mixed-precision SIMD Neural Processing Engine, designed for extended reality (XR) perception workloads like visual inertial odometry (VIO), object classification, and eye gaze extraction. XR-NPE is first to support FP4, Posit (4,1), Posit (8,0), and Posit (16,1) formats, with layer adaptive hybrid-algorithmic implementation supporting ultra-low bit precision to significantly reduce memory bandwidth requirements, and accompanied by quantization-aware training for minimal accuracy loss. The proposed Reconfigurable Mantissa Multiplication and Exponent processing Circuitry (RMMEC) reduces dark silicon in the SIMD MAC compute engine, assisted by selective power gating to reduce energy consumption, providing 2.85x improved arithmetic intensity. XR-NPE achieves a maximum operating frequency of 1.72 GHz, area 0.016 mm2 , and arithmetic intensity 14 pJ at CMOS 28nm, reducing 42% area, 38% power compared to the best of state-of-the-art MAC approaches. The proposed XR-NPE based AXI-enabled Matrix-multiplication co-processor consumes 1.4x fewer LUTs, 1.77x fewer FFs, and provides 1.2x better energy efficiency compared to SoTA accelerators on VCU129. The proposed co-processor provides 23% better energy efficiency and 4% better compute density for VIO workloads. XR-NPE establishes itself as a scalable, precision-adaptive compute engine for future resource-constrained XR devices. The complete set for codes for results reproducibility are released publicly, enabling designers and researchers to readily adopt and build upon them. https://github.com/mukullokhande99/XR-NPE.

Ссылки и действия