Computing-In-Memory Dataflow for Minimal Buffer Traffic

2508.14375v1 cs.AR, cs.AI 2025-08-22

Авторы:

Choongseok Song, Doo Seok Jeong

Резюме на русском

#### Контекст Computing-In-Memory (CIM) является перспективным подходом для решения проблемы памяти, которая ставит перед собой вызов в высокопроизводительных вычислениях. CIM позволяет эффективно использовать существующую память, так как значительно снижает количество данных, перемещаемых между памятью и вычислительными единицами. Это делает CIM архитектуру, имеющую потенциал для использования в дорожных устройствах AI. Модели, такие как MobileNet и EfficientNet, созданы с использованием depthwise convolution, что позволяет эффективно извлекать признаки в ситуациях с ограниченными ресурсами. Однако, существуют проблемы, которые мешают полному использованию CIM в таких случаях. Одной из них является трафик в буфере, который необходим для синхронизации данных между CIM и иных элементами архитектуры. Этот трафик не только влияет на производительность, но и увеличивает энергозатраты. Целью данной работы является разработка нового CIM-датафлоу, который может значительно снизить трафик в буфере и улучшить эффективность CIM в моделях MobileNet и EfficientNet. #### Метод Мы предлагаем новый CIM-датафлоу, основанный на принципах максимального повторного использования данных и улучшенной эффективности памяти. Наша методика включает разработку и реализацию нового способа управления данными в CIM, который значительно сокращает трафик в буфере. Данная техника осуществляется за счет изоляции данных, которые нужны для вычислений внутри CIM, и минимизации необходимости в транспорте данных между CIM и остальной частью архитектуры. Мы применили нашу методику к моделям MobileNet и EfficientNet, используя различные тестовые наборы данных, чтобы проверить ее эффективность. Эта методика не только уменьшает трафик в буфере, но и обеспечивает более эффективное использование памяти, что в конечном итоге приводит к значительному снижению затрат на трафик и энергии. #### Результаты Мы провели эксперименты с моделями MobileNet и EfficientNet, используя наши новые CIM-датафлоу. Наши результаты показали, что трафик в буфере был уменьшен на 77.4-87.0%, что привело к снижению общего трафика на 10.1-17.9% по сравнению с базовым вариантом (weight-stationary dataflow). Это также привело к снижению затрат на энергию и латентности в размере 15.6-27.8%, что демонстрирует значительный потенциал нашего подхода. Эксперименты проводились на различных наборах данных, включая ImageNet, и показали, что наш CIM-датафлоу эффективен в различных сценариях использования. #### Значимость Наш CIM-датафлоу может быть применен в различных действительных сценариях, включая AI-powered edge devices, которые требуют высокой эффективности

Abstract

Computing-In-Memory (CIM) offers a potential solution to the memory wall issue and can achieve high energy efficiency by minimizing data movement, making it a promising architecture for edge AI devices. Lightweight models like MobileNet and EfficientNet, which utilize depthwise convolution for feature extraction, have been developed for these devices. However, CIM macros often face challenges in accelerating depthwise convolution, including underutilization of CIM memory and heavy buffer traffic. The latter, in particular, has been overlooked despite its significant impact on latency and energy consumption. To address this, we introduce a novel CIM dataflow that significantly reduces buffer traffic by maximizing data reuse and improving memory utilization during depthwise convolution. The proposed dataflow is grounded in solid theoretical principles, fully demonstrated in this paper. When applied to MobileNet and EfficientNet models, our dataflow reduces buffer traffic by 77.4-87.0%, leading to a total reduction in data traffic energy and latency by 10.1-17.9% and 15.6-27.8%, respectively, compared to the baseline (conventional weight-stationary dataflow).

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Computing-In-Memory Dataflow for Minimal Buffer Traffic

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Declarative Synthesis and Multi-Objective Optimization of Stripboard Circuit Lay...

GAVINA: flexible aggressive undervolting for bit-serial mixed-precision DNN acce...

R3A: Reliable RTL Repair Framework with Multi-Agent Fault Localization and Stoch...

Comprehensive Design Space Exploration for Tensorized Neural Network Hardware Ac...

R3A: Reliable RTL Repair Framework with Multi-Agent Fault Localization and Stoch...

Навигация