Row-Column Hybrid Grouping for Fault-Resilient Multi-Bit Weight Representation on IMC Arrays

2508.15685v1 cs.AR, cs.AI 2025-08-23
Авторы:

Kang Eun Jeon, Sangheum Yeon, Jinhee Kim, Hyeonsu Bang, Johnny Rhe, Jong Hwan Ko

Резюме на русском

## Контекст Задачи, связанные с вычислительными системами и их отказоустойчивостью, приобрели важность в современных вычислительных системах, особенно в контексте интегральных микросхем (IMC) и их применений. Основной причиной нестабильности в IMC являются stuck-at faults (SAFs), которые существенно снижают степень удовлетворенности пользователей. Также существует проблема с высокой сложностью компиляции, которая затрудняет настройку и развертывание ПО на IMC-системах. Эти ограничения становятся особенно заметными при обработке данных во время реального времени, где высокая точность, энергоэффективность и отказоустойчивость являются ключевыми требованиями. ## Метод Разработана новая методика группировки ячеек в IMC, называемая row-column hybrid grouping. Она расширяет традиционный столбцовый подход, добавляя возможность использования параллельных решений в горизонтальных и вертикальных направлениях. Это позволяет увеличить гибкость системы и улучшить отказоустойчивость. Для высокоэффективной компиляции вводится компилятор, основанный на Integer Linear Programming (ILP), который быстро решает задачи по синтезу fault-aware weight decomposition. Использованы также теоретические решения, позволяющие оптимизировать вычисления и уменьшить время компиляции. ## Результаты Проведены эксперименты с использованием нейронных сетей и небольших моделей языкового моделирования. Оказалось, что row-column hybrid grouping позволяет повысить точность вывода до 8% в сравнении с базовыми методами. Также улучшилась энергоэффективность изобретения на 2 раза, и компиляция происходит 150 раз быстрее, чем при использовании стандартных методов. Таким образом, новинка позволяет повысить отказоустойчивость, энергоэффективность и производительность IMC-систем в реальном времени. ## Значимость Изобретение может быть применено в различных областях, включая ИИ, машинное обучение, а также в области стабильных вычислений, где отказоустойчивость и энергоэффективность критичны. Изобретение снижает время компиляции, улучшает эффективность вычислений и повышает удобство применения IMC-систем в сложных системах. Будущими направлениями исследований могут стать расширение гибридной группировки для более крупных моделей, а также повышение эффективности кросс-платформенных решений. ## Выводы Row-column hybrid grouping и новый компилятор ILP представляют собой существенный шаг в направлении повышения отказоустойчивости IMC-систем. Это изобретение улучшило не только точность и энергоэффективность, но и расширило возможности для более быстрого развертывания IMC-систем в различных приложениях. Будущие исследования будут сфокусированы на ра

Abstract

This paper addresses two critical challenges in analog In-Memory Computing (IMC) systems that limit their scalability and deployability: the computational unreliability caused by stuck-at faults (SAFs) and the high compilation overhead of existing fault-mitigation algorithms, namely Fault-Free (FF). To overcome these limitations, we first propose a novel multi-bit weight representation technique, termed row-column hybrid grouping, which generalizes conventional column grouping by introducing redundancy across both rows and columns. This structural redundancy enhances fault tolerance and can be effectively combined with existing fault-mitigation solutions. Second, we design a compiler pipeline that reformulates the fault-aware weight decomposition problem as an Integer Linear Programming (ILP) task, enabling fast and scalable compilation through off-the-shelf solvers. Further acceleration is achieved through theoretical insights that identify fault patterns amenable to trivial solutions, significantly reducing computation. Experimental results on convolutional networks and small language models demonstrate the effectiveness of our approach, achieving up to 8%p improvement in accuracy, 150x faster compilation, and 2x energy efficiency gain compared to existing baselines.

Ссылки и действия