Chiplet-Based RISC-V SoC with Modular AI Acceleration

2509.18355v1 cs.AR, cs.AI 2025-09-25
Авторы:

P. Ramkumar, S. S. Bharadwaj

Резюме на русском

#### Контекст Развитие и применение искусственного интеллекта в устройствах периферии становится все более важной задачей. Однако наиболее продвинутые процессы точки доступа (например, 360 мм²) сталкиваются с тем, что развитие мощных многофункциональных систем на одном чипе становится все более сложной и дорогостоящей задачей. Это вызвано неэффективностью процесса производства и высокой сложностью распределения ресурсов в централизованной архитектуре. Для эффективного решения проблем высокой энергоемкости и недостаточной гибкости архитектуры возникает необходимость разработки модульных решений, которые позволят повысить производительность, энергоэффективность и экономичность. #### Метод Разработка предлагаемой модели основывается на использовании модульного подхода к проектированию чиплотов (chiplet-based design). Архитектура состоит из четырех основных инновационных элементов: 1. **Динамического управления частотой и напряжением (Dynamic Voltage and Frequency Scaling, DVFS)**, которое адаптируется к работе чиплотов, обеспечивая эффективное управление энергопотреблением. 2. **Универсального протокола интерконнективного взаимодействия chiplet (Universal Chiplet Interconnect Express, UCIe)**, в котором включены расширения для структурированного потокового управления и сжатия данных. 3. **Распределенной криптографической защиты**, которая гарантирует безопасность данных на разных уровнях архитектуры. 4. **Интеллектуального распределения нагрузки**, которое позволяет переносить нагрузки на более подходящие чиплеты в зависимости от реального времени и сенсорных данных. На основе этой модели создана система, включающая 7-нанометровый чип RISC-V, два 5-нанометровых AI-акселератора, 16 ГБ HBM3-памяти и контроллеры мощности. #### Результаты На тестах MobileNetV2, ResNet-50 и обработке видео в реальном времени архитектура продемонстрировала выдающиеся результаты. Она показала снижение задержки на ~14,7%, повышение пропускной способности на ~17,3% и снижение энергопотребления на ~16,2% по сравнению с базовым chiplet-дизайном. Эти улучшения приводят к увеличению эффективности на 40,1% (то есть, до 3,5 мДж в одной инференции MobileNetV2 на 860 мВт/244 изображений/с) при сохранении возможности работы в режиме реального времени (менее 5 мс). #### Значимость Модульный подход, примененный в этой работе, предоставляет перспективную архитектуру для следующего поколения устройств на основе искусственного интеллекта. Он обеспечивает более высокую энергоэффективность, гибкость и экономичность, которые являются ключевыми для решения задач мобильных, интеллектуальных и сетевы

Abstract

Achieving high performance, energy efficiency, and cost-effectiveness while maintaining architectural flexibility is a critical challenge in the development and deployment of edge AI devices. Monolithic SoC designs struggle with this complex balance mainly due to low manufacturing yields (below 16%) at advanced 360 mm^2 process nodes. This paper presents a novel chiplet-based RISC-V SoC architecture that addresses these limitations through modular AI acceleration and intelligent system level optimization. Our proposed design integrates 4 different key innovations in a 30mm x 30mm silicon interposer: adaptive cross-chiplet Dynamic Voltage and Frequency Scaling (DVFS); AI-aware Universal Chiplet Interconnect Express (UCIe) protocol extensions featuring streaming flow control units and compression-aware transfers; distributed cryptographic security across heterogeneous chiplets; and intelligent sensor-driven load migration. The proposed architecture integrates a 7nm RISC-V CPU chiplet with dual 5nm AI accelerators (15 TOPS INT8 each), 16GB HBM3 memory stacks, and dedicated power management controllers. Experimental results across industry standard benchmarks like MobileNetV2, ResNet-50 and real-time video processing demonstrate significant performance improvements. The AI-optimized configuration achieves ~14.7% latency reduction, 17.3% throughput improvement, and 16.2% power reduction compared to previous basic chiplet implementations. These improvements collectively translate to a 40.1% efficiency gain corresponding to ~3.5 mJ per MobileNetV2 inference (860 mW/244 images/s), while maintaining sub-5ms real-time capability across all experimented workloads. These performance upgrades demonstrate that modular chiplet designs can achieve near-monolithic computational density while enabling cost efficiency, scalability and upgradeability, crucial for next-generation edge AI device applications.

Ссылки и действия