Low Power Approximate Multiplier Architecture for Deep Neural Networks

2509.00764v1 cs.AR, cs.AI 2025-09-05

Авторы:

Pragun Jaswal, L. Hemanth Krishna, B. Srinivasu

Резюме на русском

## Контекст Исследование сосредоточено на разработке энергоэффективных аппроксимативных множителей для глубоких нейронных сетей (DNN). Эти сети широко применяются в различных областях, включая обработку изображений, текста и речевых сигналов. Однако аппаратные реализации DNN часто сталкиваются с ограничениями по энергопотреблению, особенно в устройствах с ограниченным питанием, таких как мобильные устройства и IoT-гаджеты. Существующие аппаратные решения либо требуют высокого энергопотребления, либо ухудшают точность распознавания. Мотивация заключается в создании энергоэффективной аппаратной архитектуры, которая обеспечивает высокую точность за счет приемлемых ошибок в вычислениях. ## Метод Предложенная архитектура основывается на использовании 4:2-компрессора, вставленного в 8x8-множитель. 4:2-компрессор, представляющий собой однонаправленный компрессор с одним сочетательным ошибком, позволяет снизить энергопотребление, оставаясь при этом точным в большинстве случаев. Множитель интегрирован в пользовательскую аппаратную реализацию слоя свертки DNN. Также использован алгоритм ранжирования, позволяющий выбирать наиболее подходящие комбинации для уменьшения ошибок. Этот подход применен к нейросетям, обученным на задачах распознавания изображений и убирания шума. ## Результаты Экспериментальные результаты показали, что предложенный множитель эффективен в сочетании с DNN. Например, в задаче распознавания изображений, проводимой на конфигурации кастомного слоя свертки, аппаратная реализация демонстрирует до 30.24% энергоэффективности по сравнению с лучшими альтернативными множителями. В задаче убирания шума с использованием пользовательского аппаратного решения, основанного на подходе с 4:2-компрессором, сеть показала улучшение PSNR (Peak Signal-to-Noise Ratio) и SSIM (Structural Similarity Index Measure) по сравнению с другими аппроксимативными решениями. Также в задаче распознавания рукописных цифр сеть сохранила высокую точность классификации. ## Значимость Предложенная архитектура предлагает значительные преимущества в области энергосберегающих DNN-решений. Она применяется в сценариях, где необходимо сочетание высокой эффективности и приемлемой точности, что делает ее подходящим для устройств с ограниченным питанием. Этот подход имеет потенциал для улучшения работы нейронных сетей в приложениях, таких как здравоохранение, IoT, мобильные приложения и компьютерного зрения. Он также открывает пути для будущих исследований в области энергоэффективных DNN-решений, включая исследования уменьшения о

Abstract

This paper proposes an low power approximate multiplier architecture for deep neural network (DNN) applications. A 4:2 compressor, introducing only a single combination error, is designed and integrated into an 8x8 unsigned multiplier. This integration significantly reduces the usage of exact compressors while preserving low error rates. The proposed multiplier is employed within a custom convolution layer and evaluated on neural network tasks, including image recognition and denoising. Hardware evaluation demonstrates that the proposed design achieves up to 30.24% energy savings compared to the best among existing multipliers. In image denoising, the custom approximate convolution layer achieves improved Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity Index Measure (SSIM) compared to other approximate designs. Additionally, when applied to handwritten digit recognition, the model maintains high classification accuracy. These results demonstrate that the proposed architecture offers a favorable balance between energy efficiency and computational precision, making it suitable for low-power AI hardware implementations.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Low Power Approximate Multiplier Architecture for Deep Neural Networks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Declarative Synthesis and Multi-Objective Optimization of Stripboard Circuit Lay...

GAVINA: flexible aggressive undervolting for bit-serial mixed-precision DNN acce...

R3A: Reliable RTL Repair Framework with Multi-Agent Fault Localization and Stoch...

Comprehensive Design Space Exploration for Tensorized Neural Network Hardware Ac...

R3A: Reliable RTL Repair Framework with Multi-Agent Fault Localization and Stoch...

Навигация