📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 KVNAND: Efficient On-Device Large Language Model Inference Using DRAM-Free In-Flash Computing

2025-12-05

Авторы:

Lishuo Deng, Shaojie Xu, Jinwu Chen, Changwei Yan, Jiajie Wang, Zhe Jiang, Weiwei Shan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Deploying large language models (LLMs) on edge devices enables personalized agents with strong privacy and low cost. However, with tens to hundreds of billions of parameters, single-batch autoregressive inference suffers from extremely low arithmetic intensity, creating severe weight-loading and bandwidth pressures on resource-constrained platforms. Recent in-flash computing (IFC) solutions alleviate this bottleneck by co-locating weight-related linear computations in the decode phase with flash...

ID: 2512.03608v1 cs.AR, cs.AI, cs.ET

arXiv PDF

📄 DISCA: A Digital In-memory Stochastic Computing Architecture Using A Compressed Bent-Pyramid Format

2025-11-25

Авторы:

Shady Agwa, Yikang Shen, Shiwei Wang, Themis Prodromakis

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Nowadays, we are witnessing an Artificial Intelligence revolution that dominates the technology landscape in various application domains, such as healthcare, robotics, automotive, security, and defense. Massive-scale AI models, which mimic the human brain's functionality, typically feature millions and even billions of parameters through data-intensive matrix multiplication tasks. While conventional Von-Neumann architectures struggle with the memory wall and the end of Moore's Law, these AI appl...

ID: 2511.17265v1 cs.AR, cs.AI, cs.ET, cs.PF

arXiv PDF

📄 MDM: Manhattan Distance Mapping of DNN Weights for Parasitic-Resistance-Resilient Memristive Crossbars

2025-11-11

Авторы:

Matheus Farias, Wanghley Martins, H. T. Kung

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Manhattan Distance Mapping (MDM) is a post-training deep neural network (DNN) weight mapping technique for memristive bit-sliced compute-in-memory (CIM) crossbars that reduces parasitic resistance (PR) nonidealities. PR limits crossbar efficiency by mapping DNN matrices into small crossbar tiles, reducing CIM-based speedup. Each crossbar executes one tile, requiring digital synchronization before the next layer. At this granularity, designers either deploy many small crossbars in parallel or r...

ID: 2511.04798v1 cs.AR, cs.AI, cs.ET, cs.LG

arXiv PDF

📄 Lifetime-Aware Design of Item-Level Intelligence

2025-09-12

Авторы:

Shvetank Prakash, Andrew Cheng, Olof Kindgren, Ashiq Ahamed, Graham Knight, Jed Kufel, Francisco Rodriguez, Arya Tschand, David Kong, Mariam Elgamal, Jerry Huang, Emma Chen, Gage Hills, Richard Price, Emre Ozer, Vijay Janapa Reddi

## Контекст Интеграция вычислительных систем в повседневные предметы, такие как медицинские пластыри и упаковка продуктов, является кллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллл

Annotation:

We present FlexiFlow, a lifetime-aware design framework for item-level intelligence (ILI) where computation is integrated directly into disposable products like food packaging and medical patches. Our framework leverages natively flexible electronics which offer significantly lower costs than silicon but are limited to kHz speeds and several thousands of gates. Our insight is that unlike traditional computing with more uniform deployment patterns, ILI applications exhibit 1000X variation in oper...

ID: 2509.08193v1 cs.AR, cs.AI, cs.ET

arXiv PDF

📄 OISMA: On-the-fly In-memory Stochastic Multiplication Architecture for Matrix-Multiplication Workloads

2025-08-14

Авторы:

Shady Agwa, Yihan Pan, Georgios Papandroulidakis, Themis Prodromakis

## Контекст Масштабное увеличение сложности сетей нейронных сетей в сфере искусственного интеллекта приводит к возрастающему уровню затруднений в вычислениях. Огромная часть этих вычислений связана с матричными умножениями, которые представляют собой главную часть большинства моделей. Несмотря на развитие различных архитектур вычислений, в том числе ин-памяти, проблемы скорости, энергоэффективности и точности все еще остаются актуальными. Одним из ключевых требований к развитию новых архитектур является повышение эффективности и экономии ресурсов. Однако существующие решения, как цифровые, так и аналоговые, имеют свои ограничения, которые не позволяют полностью решить эти проблемы. Мотивацией для разработки новой архитектуры ОISMA (On-the-fly In-memory Stochastic Multiplication Architecture) является необходимость в более эффективном использовании ресурсов и уменьшении накладных расходов в вычислительных процессах. ## Метод ОISMA представляет собой инновационную подход к вычислениям, основанную на практически стохастическом уровне абстракции. Основной идеей является конвертация обычных операций чтения памяти в стохастические множительные операции с помощью системы "Bent-Pyramid". Эта система позволяет осуществлять внутрипамятные операции умножения, используя только минимальные дополнительные ресурсы. Для суммирования результатов используется резервная периферия, которая агрегирует битстреймы, полученные в результате стохастических умножений. Архитектура строится с учетом модулярности и масштабируемости, чтобы поддерживать различные размеры матриц, начиная от малых до больших (до 512x512). Методология основана на комбинации простоты стохастической аппроксимации и цифровой структуре памяти, что обеспечивает высокую точность и эффективность. ## Результаты Опыты были проведены с размерностями матриц от 4x4 до 512x512. Результаты показали, что для матрицы 512x512 стохастическая архитектура ОISMA демонстрирует снижение среднего относительного ошибки Frobenius до 1,81%, что значительно лучше, чем результаты 64-битного формата двойной точности (6,25%). Это указывает на высокую точность и надежность новой архитектуры. Кроме того, эксперименты по энергоэффективности и плотности вычислений показали, что OISMA может достигать значительно более высокой точности при меньшем потреблении энергии и меньшем объеме вычислительной площади. Например, на технологии 180 нм OISMA достигает энергоэффективности 0.891 TOPS/W и плотности вычислений 3.98 GOPS/mm². Основно

Annotation:

Artificial Intelligence models are currently driven by a significant up-scaling of their complexity, with massive matrix multiplication workloads representing the major computational bottleneck. In-memory computing architectures are proposed to avoid the Von Neumann bottleneck. However, both digital/binary-based and analogue in-memory computing architectures suffer from various limitations, which significantly degrade the performance and energy efficiency gains. This work proposes OISMA, a novel...

ID: 2508.08822v1 cs.AR, cs.AI, cs.ET, cs.PF

arXiv PDF