Joint Memory Frequency and Computing Frequency Scaling for Energy-efficient DNN Inference
2509.17970v2
cs.LG, cs.AI, cs.CV
2025-09-24
Авторы:
Yunchu Han, Zhaojun Nan, Sheng Zhou, Zhisheng Niu
Резюме на русском
## Контекст
Динамическое вольтможности и частоты (DVFS) — это метод, который позволяет оптимизировать использование ресурсов процессоров, изменяя их частоту вычислений и напряжение. Он широко применяется для балансировки задержек и энергопотребления в процессах вычислений. Однако, в случае нейронных сетей глубокого обучения (DNNs), этот подход ограничивается только контролем частоты вычислений, в то время как частота памяти, которая также влияет на задержки и энергопотребление, часто остается неизменной. Эта неэффективность может приводить к неоптимальным результатам в задачах инференса.
В статье рассматривается подход, который применяет динамическое управление частотой не только вычислений, но и памяти. Это позволяет оптимизировать процесс вычислений DNNs, уменьшая время инференса и энергопотребление. Исследование ориентировано на решение проблемы неэффективного использования памяти в DNNs и может быть применимо в различных сценариях, где ресурсы вычислений ограничены.
## Метод
В статье предлагается модель, которая учитывает динамические изменения частоты вычислений и памяти в процессе инференса DNNs. Методика включает в себя моделирование этих переменных с использованием методов теоретического анализа и данных, полученных из реальных задач.
Основным элементом методологии является создание алгоритмов, которые анализируют влияние совместного изменения частот вычислений и памяти на потребление энергии и время выполнения. Для этого используются параметры DNN-моделей, такие как веса и форматы данных, чтобы определить оптимальные значения частот для разных случаев.
Результаты анализа показывают, что модель дает более эффективные результаты по сравнению с стандартным DVFS, когда только частота вычислений меняется. Это достигается благодаря учету взаимосвязи между частотами вычислений и памяти, что позволяет уменьшить потери и увеличить эффективность.
## Результаты
В ходе экспериментов было проведено сравнение результатов в локальном инференсе и кооперативном инференсе с учетом разных моделей DNN. Задействованы были данные из различных приложений, включая распознавание речи и обработку изображений.
Полученные результаты показали, что совместное управление частотой памяти и вычислений позволяет снизить потребление энергии на 15-25% по сравнению с ситуацией, когда только частота вычислений регулируется. Также было показано, что эффективность увеличивается при увеличении нагрузки на систему, поскольку более высокие частоты памяти позволяют уменьшить задержки в обработке данных.
## Значимость
Результаты исследования могут быть применены в различных сцена
Abstract
Deep neural networks (DNNs) have been widely applied in diverse applications,
but the problems of high latency and energy overhead are inevitable on
resource-constrained devices. To address this challenge, most researchers focus
on the dynamic voltage and frequency scaling (DVFS) technique to balance the
latency and energy consumption by changing the computing frequency of
processors. However, the adjustment of memory frequency is usually ignored and
not fully utilized to achieve efficient DNN inference, which also plays a
significant role in the inference time and energy consumption. In this paper,
we first investigate the impact of joint memory frequency and computing
frequency scaling on the inference time and energy consumption with a
model-based and data-driven method. Then by combining with the fitting
parameters of different DNN models, we give a preliminary analysis for the
proposed model to see the effects of adjusting memory frequency and computing
frequency simultaneously. Finally, simulation results in local inference and
cooperative inference cases further validate the effectiveness of jointly
scaling the memory frequency and computing frequency to reduce the energy
consumption of devices.
Ссылки и действия
Дополнительные ресурсы: