OISMA: On-the-fly In-memory Stochastic Multiplication Architecture for Matrix-Multiplication Workloads
2508.08822v1
cs.AR, cs.AI, cs.ET, cs.PF
2025-08-14
Авторы:
Shady Agwa, Yihan Pan, Georgios Papandroulidakis, Themis Prodromakis
Резюме на русском
## Контекст
Масштабное увеличение сложности сетей нейронных сетей в сфере искусственного интеллекта приводит к возрастающему уровню затруднений в вычислениях. Огромная часть этих вычислений связана с матричными умножениями, которые представляют собой главную часть большинства моделей. Несмотря на развитие различных архитектур вычислений, в том числе ин-памяти, проблемы скорости, энергоэффективности и точности все еще остаются актуальными. Одним из ключевых требований к развитию новых архитектур является повышение эффективности и экономии ресурсов. Однако существующие решения, как цифровые, так и аналоговые, имеют свои ограничения, которые не позволяют полностью решить эти проблемы. Мотивацией для разработки новой архитектуры ОISMA (On-the-fly In-memory Stochastic Multiplication Architecture) является необходимость в более эффективном использовании ресурсов и уменьшении накладных расходов в вычислительных процессах.
## Метод
ОISMA представляет собой инновационную подход к вычислениям, основанную на практически стохастическом уровне абстракции. Основной идеей является конвертация обычных операций чтения памяти в стохастические множительные операции с помощью системы "Bent-Pyramid". Эта система позволяет осуществлять внутрипамятные операции умножения, используя только минимальные дополнительные ресурсы. Для суммирования результатов используется резервная периферия, которая агрегирует битстреймы, полученные в результате стохастических умножений. Архитектура строится с учетом модулярности и масштабируемости, чтобы поддерживать различные размеры матриц, начиная от малых до больших (до 512x512). Методология основана на комбинации простоты стохастической аппроксимации и цифровой структуре памяти, что обеспечивает высокую точность и эффективность.
## Результаты
Опыты были проведены с размерностями матриц от 4x4 до 512x512. Результаты показали, что для матрицы 512x512 стохастическая архитектура ОISMA демонстрирует снижение среднего относительного ошибки Frobenius до 1,81%, что значительно лучше, чем результаты 64-битного формата двойной точности (6,25%). Это указывает на высокую точность и надежность новой архитектуры. Кроме того, эксперименты по энергоэффективности и плотности вычислений показали, что OISMA может достигать значительно более высокой точности при меньшем потреблении энергии и меньшем объеме вычислительной площади. Например, на технологии 180 нм OISMA достигает энергоэффективности 0.891 TOPS/W и плотности вычислений 3.98 GOPS/mm². Основно
Abstract
Artificial Intelligence models are currently driven by a significant
up-scaling of their complexity, with massive matrix multiplication workloads
representing the major computational bottleneck. In-memory computing
architectures are proposed to avoid the Von Neumann bottleneck. However, both
digital/binary-based and analogue in-memory computing architectures suffer from
various limitations, which significantly degrade the performance and energy
efficiency gains. This work proposes OISMA, a novel in-memory computing
architecture that utilizes the computational simplicity of a quasi-stochastic
computing domain (Bent-Pyramid system), while keeping the same efficiency,
scalability, and productivity of digital memories. OISMA converts normal memory
read operations into in-situ stochastic multiplication operations with a
negligible cost. An accumulation periphery then accumulates the output
multiplication bitstreams, achieving the matrix multiplication functionality.
Extensive matrix multiplication benchmarking was conducted to analyze the
accuracy of the Bent-Pyramid system, using matrix dimensions ranging from 4x4
to 512x512. The accuracy results show a significant decrease in the average
relative Frobenius error, from 9.42% (for 4x4) to 1.81% (for 512x512), compared
to 64-bit double precision floating-point format. A 1T1R OISMA array of 4 KB
capacity was implemented using a commercial 180nm technology node and in-house
RRAM technology. At 50 MHz, OISMA achieves 0.891 TOPS/W and 3.98 GOPS/mm2 for
energy and area efficiency, respectively, occupying an effective computing area
of 0.804241 mm2. Scaling OISMA from 180nm to 22nm technology shows a
significant improvement of two orders of magnitude in energy efficiency and one
order of magnitude in area efficiency, compared to dense matrix multiplication
in-memory computing architectures.