Joint Memory Frequency and Computing Frequency Scaling for Energy-efficient DNN Inference

2509.17970v2 cs.LG, cs.AI, cs.CV 2025-09-24

Авторы:

Yunchu Han, Zhaojun Nan, Sheng Zhou, Zhisheng Niu

Резюме на русском

## Контекст Динамическое вольтможности и частоты (DVFS) — это метод, который позволяет оптимизировать использование ресурсов процессоров, изменяя их частоту вычислений и напряжение. Он широко применяется для балансировки задержек и энергопотребления в процессах вычислений. Однако, в случае нейронных сетей глубокого обучения (DNNs), этот подход ограничивается только контролем частоты вычислений, в то время как частота памяти, которая также влияет на задержки и энергопотребление, часто остается неизменной. Эта неэффективность может приводить к неоптимальным результатам в задачах инференса. В статье рассматривается подход, который применяет динамическое управление частотой не только вычислений, но и памяти. Это позволяет оптимизировать процесс вычислений DNNs, уменьшая время инференса и энергопотребление. Исследование ориентировано на решение проблемы неэффективного использования памяти в DNNs и может быть применимо в различных сценариях, где ресурсы вычислений ограничены. ## Метод В статье предлагается модель, которая учитывает динамические изменения частоты вычислений и памяти в процессе инференса DNNs. Методика включает в себя моделирование этих переменных с использованием методов теоретического анализа и данных, полученных из реальных задач. Основным элементом методологии является создание алгоритмов, которые анализируют влияние совместного изменения частот вычислений и памяти на потребление энергии и время выполнения. Для этого используются параметры DNN-моделей, такие как веса и форматы данных, чтобы определить оптимальные значения частот для разных случаев. Результаты анализа показывают, что модель дает более эффективные результаты по сравнению с стандартным DVFS, когда только частота вычислений меняется. Это достигается благодаря учету взаимосвязи между частотами вычислений и памяти, что позволяет уменьшить потери и увеличить эффективность. ## Результаты В ходе экспериментов было проведено сравнение результатов в локальном инференсе и кооперативном инференсе с учетом разных моделей DNN. Задействованы были данные из различных приложений, включая распознавание речи и обработку изображений. Полученные результаты показали, что совместное управление частотой памяти и вычислений позволяет снизить потребление энергии на 15-25% по сравнению с ситуацией, когда только частота вычислений регулируется. Также было показано, что эффективность увеличивается при увеличении нагрузки на систему, поскольку более высокие частоты памяти позволяют уменьшить задержки в обработке данных. ## Значимость Результаты исследования могут быть применены в различных сцена

Abstract

Deep neural networks (DNNs) have been widely applied in diverse applications, but the problems of high latency and energy overhead are inevitable on resource-constrained devices. To address this challenge, most researchers focus on the dynamic voltage and frequency scaling (DVFS) technique to balance the latency and energy consumption by changing the computing frequency of processors. However, the adjustment of memory frequency is usually ignored and not fully utilized to achieve efficient DNN inference, which also plays a significant role in the inference time and energy consumption. In this paper, we first investigate the impact of joint memory frequency and computing frequency scaling on the inference time and energy consumption with a model-based and data-driven method. Then by combining with the fitting parameters of different DNN models, we give a preliminary analysis for the proposed model to see the effects of adjusting memory frequency and computing frequency simultaneously. Finally, simulation results in local inference and cooperative inference cases further validate the effectiveness of jointly scaling the memory frequency and computing frequency to reduce the energy consumption of devices.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Joint Memory Frequency and Computing Frequency Scaling for Energy-efficient DNN Inference

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TV2TV: A Unified Framework for Interleaved Language and Video Generation

The Universal Weight Subspace Hypothesis

STeP-Diff: Spatio-Temporal Physics-Informed Diffusion Models for Mobile Fine-Gra...

Open-Set Domain Adaptation Under Background Distribution Shift: Challenges and A...

First On-Orbit Demonstration of a Geospatial Foundation Model

Навигация