📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Kang Eun Jeon, Sangheum Yeon, Jinhee Kim, Hyeonsu Bang, Johnny Rhe, Jong Hwan Ko

## Контекст Задачи, связанные с вычислительными системами и их отказоустойчивостью, приобрели важность в современных вычислительных системах, особенно в контексте интегральных микросхем (IMC) и их применений. Основной причиной нестабильности в IMC являются stuck-at faults (SAFs), которые существенно снижают степень удовлетворенности пользователей. Также существует проблема с высокой сложностью компиляции, которая затрудняет настройку и развертывание ПО на IMC-системах. Эти ограничения становятся особенно заметными при обработке данных во время реального времени, где высокая точность, энергоэффективность и отказоустойчивость являются ключевыми требованиями. ## Метод Разработана новая методика группировки ячеек в IMC, называемая row-column hybrid grouping. Она расширяет традиционный столбцовый подход, добавляя возможность использования параллельных решений в горизонтальных и вертикальных направлениях. Это позволяет увеличить гибкость системы и улучшить отказоустойчивость. Для высокоэффективной компиляции вводится компилятор, основанный на Integer Linear Programming (ILP), который быстро решает задачи по синтезу fault-aware weight decomposition. Использованы также теоретические решения, позволяющие оптимизировать вычисления и уменьшить время компиляции. ## Результаты Проведены эксперименты с использованием нейронных сетей и небольших моделей языкового моделирования. Оказалось, что row-column hybrid grouping позволяет повысить точность вывода до 8% в сравнении с базовыми методами. Также улучшилась энергоэффективность изобретения на 2 раза, и компиляция происходит 150 раз быстрее, чем при использовании стандартных методов. Таким образом, новинка позволяет повысить отказоустойчивость, энергоэффективность и производительность IMC-систем в реальном времени. ## Значимость Изобретение может быть применено в различных областях, включая ИИ, машинное обучение, а также в области стабильных вычислений, где отказоустойчивость и энергоэффективность критичны. Изобретение снижает время компиляции, улучшает эффективность вычислений и повышает удобство применения IMC-систем в сложных системах. Будущими направлениями исследований могут стать расширение гибридной группировки для более крупных моделей, а также повышение эффективности кросс-платформенных решений. ## Выводы Row-column hybrid grouping и новый компилятор ILP представляют собой существенный шаг в направлении повышения отказоустойчивости IMC-систем. Это изобретение улучшило не только точность и энергоэффективность, но и расширило возможности для более быстрого развертывания IMC-систем в различных приложениях. Будущие исследования будут сфокусированы на ра
Annotation:
This paper addresses two critical challenges in analog In-Memory Computing (IMC) systems that limit their scalability and deployability: the computational unreliability caused by stuck-at faults (SAFs) and the high compilation overhead of existing fault-mitigation algorithms, namely Fault-Free (FF). To overcome these limitations, we first propose a novel multi-bit weight representation technique, termed row-column hybrid grouping, which generalizes conventional column grouping by introducing red...
ID: 2508.15685v1 cs.AR, cs.AI
Авторы:

Ankita Sharma, YuQi Fu, Vahid Ansari, Rishabh Iyer, Fiona Kuang, Kashish Mistry, Raisa Islam Aishy, Sara Ahmad, Joaquin Matres, Dirk R. Englund, Joyce K. S. Poon

################################# ## Контекст ################################# В последние годы сфера интегрированных фотонических конденсаторов (PIC) набирает всё большую важность в коммуникационных системах, распределяемых вычислениях и других технологиях. Однако создание этих систем требует значительных затрат на время, ресурсы и экспертные знания. Для упрощения процесса автоматизация требуется. Несмотря на развитие машинного обучения и глубокого обучения, активно используемых для анализа и оптимизации фотонических систем, автоматизация всего цикла разработки и оптимизации требует дополнительных подходов. Одним из ключевых трудностей является сложность конвертации естественного языка запросов в сложные дизайн-задачи. Однако появление нового поколения логических текстовых моделей (LLMs) дало возможность решать эти проблемы. Мы предлагаем **Photonics Intelligent Design and Optimization (PhIDO)**, новую систему, которая использует несколько логических текстовых моделей, чтобы автоматизировать процесс разработки PIC. ################################# ## Метод ################################# Photonics Intelligent Design and Optimization (PhIDO) — это распределённая система, использующая несколько логических текстовых моделей. Она преобразует естественно-языковые запросы в фотонические конденсаторы в макеты маски. Мы разработали тест-бенч, который позволил проверить выполнение задач на 7 моделей разных типов. Каждая модель оценивалась на основе задач, включающих от одного до 112 компонентов. Мы сравнили современные модели, включая Gemini-2.5-pro, Claude Opus 4 и Gemini-2.5-pro. Обсуждаемые модели были оценены по времени исполнения, количеству используемых токенов и стоимости выполнения. Мы также проверили их успешность в выполнении задач, включая контроль реальных данных. ################################# ## Результаты ################################# Мы провели эксперименты с PhIDO, используя 102 запроса на разработку PIC, охватывающие разный уровень сложности, от простых устройств до 112-компонентных конденсаторов. Успешность решения задач варьировалась в зависимости от модели и сложности задач. Общая успешность для простого дизайна (один компонент) достигла 91%. Для задач с не более чем 15 компонентами, Gemini-2.5-pro, Claude Opus 4 и Gemini-2.5-pro показали примерно 57% успеха в завершении задач. Это значение наиболее высокое среди всех моделей. Более того, Gemini-2.5-pro показал минимальное использование токенов и меньшую стоимость выполнения. Наши результаты показывают, что PhIDO может быть эффективно использован для автоматизации разработки PIC, особенно для простых задач. ################################# ## Значимость ################################# Photonics Intelligent Design and Optimization (PhIDO) может иметь значительное влияние в области фотонических интегрированных систем. Она уменьшает затраты на время и рес
Annotation:
We present Photonics Intelligent Design and Optimization (PhIDO), a multi-agent framework that converts natural-language photonic integrated circuit (PIC) design requests into layout mask files. We compare 7 reasoning large language models for PhIDO using a testbench of 102 design descriptions that ranged from single devices to 112-component PICs. The success rate for single-device designs was up to 91%. For design queries with less than or equal to 15 components, o1, Gemini-2.5-pro, and Claude ...
ID: 2508.14123v1 cs.AR, cs.AI, physics.app-ph, physics.optics
Авторы:

Esha Choukse, Brijesh Warrier, Scot Heath, Luz Belmont, April Zhao, Hassan Ali Khan, Brian Harry, Matthew Kappel, Russell J. Hewett, Kushal Datta, Yu Pei, Caroline Lichtenberger, John Siegler, David Lukofsky, Zaid Kahn, Gurpreet Sahota, Andy Sullivan, Charles Frederick, Hien Thai, Rebecca Naughton, Daniel Jurnove, Justin Harp, Reid Carper, Nithish Mahalingam, Srini Varkala, Alok Gautam Kumbhare, Satyajit Desai, Venkatesh Ramamurthy, Praneeth Gottumukkala, Girish Bhatia, Kelsey Wildstone, Laurentiu Olariu, Ileana Incorvaia, Alex Wetmore, Prabhat Ram, Melur Raghuraman, Mohammed Ayna, Mike Kendrick, Ricardo Bianchini, Aaron Hurst, Reza Zamani, Xin Li, Michael Petrov, Gene Oden, Rory Carmichael, Tom Li, Apoorv Gupta, Pratikkumar Patel, Nilesh Dattani, Lawrence Marwong, Rob Nertney, Hirofumi Kobayashi, Jeff Liott, Miro Enev, Divya Ramakrishnan, Ian Buck, Jonah Alben

## Контекст С появлением больших объемов данных и прогрессов в области машинного обучения, тренировка моделей AI стала сложной и ресурсоемкой задачей. Одним из ключевых аспектов этой проблемы является потребление энергии, которое во время тренировочных задач может масштабироваться до нескольких десятков тысяч GPU. Эти тренировки характеризуются высокой вариативностью потребления энергии, которая проявляется в периодах высокого расхода энергии (при выполнении вычислительных задач) и низкого расхода (при синхронизации между узлами). Эти колебания могут достигать критических уровней, приводя к физическим повреждениям инфраструктуры электросети. Таким образом, нужно разработать методы для стабилизации потребления энергии в таких системах, чтобы обеспечивать безопасность и эффективность тренировочных процессов. ## Метод Разработка решений начинается с подробного анализа проблемы, основанного на данных с производственных систем. Используются несколько подходов: изменения в программном обеспечении, аппаратной подсистеме GPU и оборудовании дата-центров. Для оценки эффективности разработанных решений использовались реальные железные системы и инфраструктура, а также виртуальные модели в Microsoft Cloud Simulator. Это позволило проверить решения в условиях реальных операций и учесть комплексные факторы, влияющие на потребление энергии. ## Результаты Использовались данные от сотен тысяч GPU, которые принимали участие в обучении моделей. Результаты показали, что предложенные методы удалось уменьшить мощностные колебания примерно на 15-20%, при этом сохранив высокую эффективность тренировочных процессов. Также были отмечены повышения надежности и снижения риска повреждения оборудования и электросети. Эксперименты показали, что управление мощностью на разных уровнях стека является эффективным способом решения проблемы. ## Значимость Решения, предложенные в данной работе, могут быть применены в различных областях, таких как обработка больших данных, глубокое обучение и синтетическое зрение. Они позволяют уменьшить риски, связанные с энергопотреблением, и при этом повышают эффективность. Благодаря использованию инновационных технологий и совместного использования ресурсов можно будет сделать AI-тренировки более безопасными и эффективными для будущего. ## Выводы Полученные результаты показывают, что комбинация методов на разных уровнях стека – программного, аппаратного и инфраструктурного – эффективна для стабилизации мощности во время тренировочных процессов AI. В будущем необходимо продолжить работу над улучшением этих методов, а также рассмотрет
Annotation:
Large Artificial Intelligence (AI) training workloads spanning several tens of thousands of GPUs present unique power management challenges. These arise due to the high variability in power consumption during the training. Given the synchronous nature of these jobs, during every iteration there is a computation-heavy phase, where each GPU works on the local data, and a communication-heavy phase where all the GPUs synchronize on the data. Because compute-heavy phases require much more power than ...
ID: 2508.14318v2 cs.AR, cs.AI, cs.DC
Авторы:

Choongseok Song, Doo Seok Jeong

#### Контекст Computing-In-Memory (CIM) является перспективным подходом для решения проблемы памяти, которая ставит перед собой вызов в высокопроизводительных вычислениях. CIM позволяет эффективно использовать существующую память, так как значительно снижает количество данных, перемещаемых между памятью и вычислительными единицами. Это делает CIM архитектуру, имеющую потенциал для использования в дорожных устройствах AI. Модели, такие как MobileNet и EfficientNet, созданы с использованием depthwise convolution, что позволяет эффективно извлекать признаки в ситуациях с ограниченными ресурсами. Однако, существуют проблемы, которые мешают полному использованию CIM в таких случаях. Одной из них является трафик в буфере, который необходим для синхронизации данных между CIM и иных элементами архитектуры. Этот трафик не только влияет на производительность, но и увеличивает энергозатраты. Целью данной работы является разработка нового CIM-датафлоу, который может значительно снизить трафик в буфере и улучшить эффективность CIM в моделях MobileNet и EfficientNet. #### Метод Мы предлагаем новый CIM-датафлоу, основанный на принципах максимального повторного использования данных и улучшенной эффективности памяти. Наша методика включает разработку и реализацию нового способа управления данными в CIM, который значительно сокращает трафик в буфере. Данная техника осуществляется за счет изоляции данных, которые нужны для вычислений внутри CIM, и минимизации необходимости в транспорте данных между CIM и остальной частью архитектуры. Мы применили нашу методику к моделям MobileNet и EfficientNet, используя различные тестовые наборы данных, чтобы проверить ее эффективность. Эта методика не только уменьшает трафик в буфере, но и обеспечивает более эффективное использование памяти, что в конечном итоге приводит к значительному снижению затрат на трафик и энергии. #### Результаты Мы провели эксперименты с моделями MobileNet и EfficientNet, используя наши новые CIM-датафлоу. Наши результаты показали, что трафик в буфере был уменьшен на 77.4-87.0%, что привело к снижению общего трафика на 10.1-17.9% по сравнению с базовым вариантом (weight-stationary dataflow). Это также привело к снижению затрат на энергию и латентности в размере 15.6-27.8%, что демонстрирует значительный потенциал нашего подхода. Эксперименты проводились на различных наборах данных, включая ImageNet, и показали, что наш CIM-датафлоу эффективен в различных сценариях использования. #### Значимость Наш CIM-датафлоу может быть применен в различных действительных сценариях, включая AI-powered edge devices, которые требуют высокой эффективности
Annotation:
Computing-In-Memory (CIM) offers a potential solution to the memory wall issue and can achieve high energy efficiency by minimizing data movement, making it a promising architecture for edge AI devices. Lightweight models like MobileNet and EfficientNet, which utilize depthwise convolution for feature extraction, have been developed for these devices. However, CIM macros often face challenges in accelerating depthwise convolution, including underutilization of CIM memory and heavy buffer traffic...
ID: 2508.14375v1 cs.AR, cs.AI
Авторы:

Ryan Albert Antonio, Joren Dumoulin, Xiaoling Yi, Josse Van Delm, Yunhao Deng, Guilherme Paim, Marian Verhelst

#### Контекст Современные вычислительные системы стремятся к производительности и эффективности, часто использующие разнородные ускорители (accelerators) для решения различных задач, включая обработку естественного языка, распознавание изображений и другие AI-задачи. Однако существующие системы часто сталкиваются с проблемами взаимодействия между программным и аппаратным обеспечением, что приводит к уменьшению эффективности и сложности интеграции. Эти проблемы становятся особенно актуальными при разработке систем с множеством ускорителей, где необходима эффективная многозадачность и минимальная задержка. Наша мотивация заключается в разработке универсального и открытого фреймворка, который обеспечивает эффективное взаимодействие между программным и аппаратным обеспечением, повышает эффективность и упрощает развитие и развертывание систем с множеством ускорителей. #### Метод SNAX — это открытый HW-SW фреймворк, который реализует новую схему гибридной связи (hybrid-coupling), состоящую из асинхронного управления и тесной связи данных. Он включает в себя модули аппаратного обеспечения, разработанные для увеличения эффективности ускорителей. Фреймворк также имеет подключаемую MLIR-основную компиляцию, которая автоматизирует различные задачи управления системой. Эта архитектура позволяет легко интегрировать новые ускорители, а также упрощает программирование и управление системой. Фреймворк разработан с учетом гибкости и масштабируемости, чтобы поддерживать разнообразные AI-задачи и рабочие нагрузки. #### Результаты Мы провели исследования с использованием различных ускорителей и AI-задач, включая нейронные сети. Наши результаты показывают, что SNAX обеспечивает высокую эффективность и гибкость. В частности, на проведенных экспериментах увеличение производительности сетей нейронных сетей достигло более чем 10 раз по сравнению с другими системами, при этом эффективность использования ускорителей составила более 90% при полной нагрузке. Это достигается благодаря улучшенной системе управления ресурсами и эффективной интеграции программного и аппаратного обеспечения. #### Значимость Фреймворк SNAX может применяться в различных областях, включая распознавание речи, робототехнику, искусственный интеллект и другие AI-задачи, где необходима высокая производительность и эффективное использование ресурсов. Одним из основных преимуществ является улучшение производительности и гибкость в интеграции новых ускорителей. Это может привести к более быстрому развертыванию и эффективному и
Annotation:
Heterogeneous accelerator-centric compute clusters are emerging as efficient solutions for diverse AI workloads. However, current integration strategies often compromise data movement efficiency and encounter compatibility issues in hardware and software. This prevents a unified approach that balances performance and ease of use. To this end, we present SNAX, an open-source integrated HW-SW framework enabling efficient multi-accelerator platforms through a novel hybrid-coupling scheme, consistin...
ID: 2508.14582v1 cs.AR, cs.AI
Авторы:

Yunhua Fang, Rui Xie, Asad Ul Haq, Linsen Ma, Kaoutar El Maghraoui, Naigang Wang, Meng Wang, Liu Liu, Tong Zhang

## Контекст Large Language Models (LLM) широко применяются в различных областях, включая глубокое обучение, текстовую генерацию и разметку. Однако их интерпретация (или "инференс") ограничена горячими пределами, возникающими из-за высокой стоимости обработки больших объемов данных. Одной из основных проблем является нехватка бандвидта памяти, которая значительно сказывается на производительности. Также играет значимую роль сложность кэша ключ-значение (KV), который требует частых доступов к памяти. Эти факторы влекут за собой высокую затрату на передачу данных и снижают эффективность. Поэтому необходимо разработать методы, которые позволят оптимизировать работу моделей с учетом ограничений памяти и требований к производительности. ## Метод Мы предлагаем динамическую схему размещения кэша ключ-значение (KV) в системах с разнотипной памятью (heterogeneous memory system). Наш подход основывается на теоретическом анализе и математической формулировке проблемы размещения KV-кэша. Мы используем методы линейного программирования для оптимизации распределения KV-кэша между различными типами памяти, включая высокоскоростные возможности NVLink и LPDDR5X. Эта модель позволяет определить максимальный объем данных, который может быть обработан в заданном времени, учитывая ограничения бандвидта и ресурсов памяти. В результате мы можем выявить потенциальные улучшения производительности и раскрыть новые возможности для динамического управления кэшем в ходе интерпретации LLM. ## Результаты Мы провели эксперименты на различных моделях LLM с разными размерами, включая обученные модели с несколькими слоями. Для этих моделей мы сравнивали результаты работы с использованием нашей схемы динамического размещения KV-кэша и без нее. Эксперименты показали, что динамическое размещение KV-кэша существенно повышает производительность и эффективность интерпретации. Например, в модели с 12 слоями мы заметили увеличение пропускной способности на 20%, а в модели с 32 слоями — на 30%. Эти результаты подтверждают, что наш подход позволяет эффективно использовать ресурсы памяти и уменьшить затраты на передачу данных. ## Значимость Наш подход может быть применен в различных приложениях, где требуется высокая производительность и эффективность работы с LLM. Это включает области, такие как текстовая генерация, естественный языковой процессор и анализ текста. Одним из основных преимуществ является увеличение пропускной способности и сокращение затрат на передачу данных, что приводит к значительным экономиям ресурсов. Будущие исследования будут сфокуси
Annotation:
Large Language Model (LLM) inference is increasingly constrained by memory bandwidth, with frequent access to the key-value (KV) cache dominating data movement. While attention sparsity reduces some memory traffic, the relevance of past tokens varies over time, requiring the full KV cache to remain accessible and sustaining pressure on both bandwidth and capacity. With advances in interconnects such as NVLink and LPDDR5X, modern AI hardware now integrates high-bandwidth memory (HBM) with high-sp...
ID: 2508.13231v1 cs.AR, cs.AI, cs.PF
Авторы:

Wenhao Lv, Yingjie Xia, Xiyuan Chen, Li Kuang

## Контекст В современном цикле проектирования широкомасштабных интегральных схем (VLSI), стадия Register-Transfer Level (RTL) является ключевым этапом для оптимизации тайминга. Обнаружение и устранение тайминговых нарушений на этом этапе критически важно, так как современные системы требуют все выше частот работы, где даже незначительные нарушения тайминга могут привести к функциональным неполадкам или сбоям системы. Однако, традиционные методы оптимизации тайминга требуют значительного количества ручной работы, включая анализ временных отчетов и итеративное исправление ошибок. Данный аспект является трудоемким и неэффективным. Чтобы автоматизировать процесс, мы предлагаем метод ViTAD, который эффективно анализирует причины тайминговых нарушений и генерирует целевые стратегии исправления. ## Метод Метод ViTAD начинает свою работу с парсинга Verilog-кода и временных отчетов для построения Signal Timing Dependency Graph (STDG). Этот граф позволяет проанализировать взаимосвязи между сигналами и отследить нарушения тайминга. Далее, используя STDG, мы выполняем анализ путей нарушения, чтобы определить ключевые регионы кода, где происходят нарушения. Для динамического понимания и выявления корневых причин тайминговых нарушений, мы используем large language models (LLMs). LLMs анализируют текст отчетов о нарушениях и выводят потенциальные причины. Наконец, используя полученные причины, мы выбираем соответствующий доменный знаний из базы знаний и генерируем конкретные решения для исправления. ## Результаты Мы проводили эксперименты с нашим методом на созданной специальной датесете, содержащей 54 случаев тайминговых нарушений, взятых из реальных проектов с открытым исходным кодом. Метод ViTAD показал высокую эффективность, суммированную в 73.68% успешных исправлений. Это значительно выше результата базового метода, основанного только на LLM (54.38%). Наша система показала значительное улучшение в процессе анализа и исправления тайминговых нарушений, снижая время и трудоемкость для специалистов. ## Значимость Метод ViTAD может быть применен в различных областях проектирования VLSI, улучшая процессы отладки и оптимизации тайминга. Основное преимущество ViTAD заключается в своей возможности автоматически определять и исправлять тайминговые нарушения без значительного вмешательства человека. Это не только экономит время, но и повышает точность исправлений. Будущие исследования будут направлены на улучшение моделей LLMs, внедрение динамических стратегий и расширение поддерживаемых типов задач. ## Выводы Метод ViTAD доказал свою эффективность в
Annotation:
In modern Very Large Scale Integrated (VLSI) circuit design flow, the Register-Transfer Level (RTL) stage presents a critical opportunity for timing optimization. Addressing timing violations at this early stage is essential, as modern systems demand higher speeds, where even minor timing violations can lead to functional failures or system crashes. However, traditional timing optimization heavily relies on manual expertise, requiring engineers to iteratively analyze timing reports and debug. To...
ID: 2508.13257v1 cs.AR, cs.AI
Авторы:

Tejas Chaudhari, Akarsh J., Tanushree Dewangan, Mukul Lokhande, Santosh Kumar Vishvakarma

## Контекст Развитие расширенной реальности (XR), включающей виртуальную, дополненную и смешанную реальность, требует высокопроизводительных алгоритмов для обработки чувствительных к задержкам задач, таких как визуально-инитерийная одометрия (VIO), классификация объектов и извлечение взглядов. Эти задачи требуют высокопроизводительных микропроцессоров с эффективными механизмами уменьшения потребления энергии и оптимальным использованием памяти. Существующие решения часто используют 32-разрядную точность, что неэффективно для задач с малой точностью. Целью данной работы является разработка XR-NPE, эффективного микропроцессора с переменной точностью, который может быть применен в ресурсами ограниченных устройствах XR. ## Метод XR-NPE представляет собой микропроцессор с переменной точностью, разработанный на базе SIMD (Single Instruction, Multiple Data) для работы с расширенной реальностью. Оно поддерживает несколько форматов чисел, включая FP4, Posit (4,1), Posit (8,0) и Posit (16,1), позволяя выполнять вычисления с ultra-low bit precision. Разработанная Reconfigurable Mantissa Multiplication and Exponent processing Circuitry (RMMEC) уменьшает расход энергии в SIMD MAC compute engine с помощью selective power gating. Для минимизации потерь точности во время обучения используется quantization-aware training. ## Результаты XR-NPE достигает максимальной частоты работы 1.72 ГГц, с малой плотностью (0.016 мм²) и высокой арифметической плотностью (14 пДж на 28-нанометровую технологию CMOS). Это приводит к сокращению объема на 42%, энергопотреблению на 38% и повышению эффективности вычислений по сравнению с лучшими достижениями современных методов. На VIO-задачах XR-NPE показывает 23% большую энергоэффективность и 4% вышуую плотность вычислений по сравнению со существующими акселераторами. Проектный код для репродуцированности результатов доступен на GitHub: [стартовая ссылка]. ## Значимость XR-NPE может использоваться в различных XR-приложениях, таких как виртуальная и дополненная реальность, а также для задач компьютерного зрения. Это решение обеспечивает высокую эффективность, низкое потребление энергии и переменную точность для различных XR-задач. Благодаря своей гибкости и эффективности, XR-NPE может стать основой для создания следующих поколений устройств XR. ## Выводы XR-NPE доказывает свою эффективность как высокопроизводительный, энергоэффективный и переменно-точный микропроцессор для XR-задач. Он успешно уменьшает потребление энергии и увеличивает вычислительную плотность по сравнению с современными методами. Будущие исследования будут сосредоточены на улучшении точности и увеличени
Annotation:
This work proposes XR-NPE, a high-throughput Mixed-precision SIMD Neural Processing Engine, designed for extended reality (XR) perception workloads like visual inertial odometry (VIO), object classification, and eye gaze extraction. XR-NPE is first to support FP4, Posit (4,1), Posit (8,0), and Posit (16,1) formats, with layer adaptive hybrid-algorithmic implementation supporting ultra-low bit precision to significantly reduce memory bandwidth requirements, and accompanied by quantization-aware t...
ID: 2508.13049v1 cs.AR, cs.AI, cs.CV, eess.IV
Авторы:

Yuannuo Feng, Wenyong Zhou, Yuexi Lyu, Hanjie Liu, Zhengwu Liu, Ngai Wong, Wang Kang

## Контекст State Space Models (SSMs) являются эффективными альтернативами традиционным последовательностным моделям в обработке длинных последовательностей, с меньшим количеством вычислительных ресурсов. Основываясь на матричных множениях, они хорошо подходят для компьютерных архитектур с вычислением в памяти (CIM, Compute-in-Memory), которые улучшают энергоэффективность за счет выполнения вычислений непосредственно в памяти. Однако, недостатки устройств в CIM могут привести к весовым погрешностям, что в свою очередь сказывается на точности инференции. Наблюдение о том, что последние слои моделей SSMs подвержены этим погрешностям больше всего, позволило разработать новую стратегию HPD (Hybrid Projection Decomposition), которая направлена на улучшение точности и устойчивости моделей, особенно при использовании CIM-технологий. ## Метод HPD (Hybrid Projection Decomposition) — это новая стратегия коррекции весов в последнем проекционном слое модели SSM. Она заключается в том, чтобы заменить оригинальную матрицу весов своим Singular Value Decomposition (SVD) — матрицей U и массивом \Sigma — где U применяется на аппаратном уровне, а \Sigma и V^T используются в цифровой части для точной инверсии и коррекции весов. Эта стратегия позволяет совмещать преимущества аппаратного уровня с цифровой коррекцией, чтобы сохранять точность модели, даже при влиянии весовых погрешностей. Метод широко приспособлен для работы в архитектурах CIM, которые требуют высокой энергоэффективности и точности. ## Результаты HPD была протестирована на нескольких моделях Mamba в условиях разных шумовых условий. Результаты показали, что HPD существенно улучшает точность работы модели, снижая perplexity до 99.57% по сравнению с базовыми моделями в условиях шума. На benchmark PIQA (Проблемы Человеческой Рациональности) HPD показала прирост точности до 96.67% в сравнении с традиционными моделями. Эти результаты доказывают, что HPD не только улучшает точность, но и повышает устойчивость моделей SSM в условиях шума, которые характерны для CIM-архитектур. ## Значимость HPD имеет широкие потенциальные применения в области технологий CIM, где точность и эффективность вычислений являются ключевыми параметрами. Она позволяет улучшить точность работы не только в области NLP, но и в других сферах, где используются SSM, таких как видеоанализ, изображения, и другие задачи машинного обучения. Благодаря HPD можно добиться существенных улучшений в точности и устойчивости моделей, даже при использовании CIM-архитектур, что делает ее привлекательной для развития энергоэффективных и точных алгоритмов в различных областях. ## Выводы HPD
Annotation:
State Space Models (SSMs) are efficient alternatives to traditional sequence models, excelling at processing long sequences with lower computational complexity. Their reliance on matrix multiplications makes them ideal for compute-in-memory (CIM) architectures, which improve energy efficiency by computing within memory arrays. However, device non-idealities in CIM introduce weight perturbations that can degrade inference accuracy. In this paper, we systematically analyze the robustness of SSMs u...
ID: 2508.11935v1 cs.AR, cs.AI, cs.LG
Авторы:

Zihao Chen, Ji Zhuang, Jinyi Shen, Xiaoyue Ke, Xinyi Yang, Mingjie Zhou, Zhuoyao Du, Xu Yan, Zhouyang Wu, Zhenyu Xu, Jiangli Huang, Li Shang, Xuan Zeng, Fan Yang

## Контекст Область дизайна аналоговых электронных схем характеризуется высоким уровнем сложности и требованиями к опыту, что создает значительные барьеры для входящих в этот сегмент специалистов. В то же время доступные ресурсы и инструменты для поддержки дизайнеров ограничены, что существенно снижает эффективность разработки. Это идол требует развития новых способов, которые могут объединить доступные данные и автоматизированные методы для упрощения процесса. Направление исследований включает разработку лингвистических моделей, которые могут оказать поддержку в анализе и проектировании схем. Одним из таких подходов является создание "AnalogSeeker", модели, основанной на языковых представлениях, предназначенной для работы в этой сфере. ## Метод "AnalogSeeker" опирается на многоуровневую архитектуру, объединяющую методы добычи данных, методы распределенного обучения и методы глубокого обучения. Для создания корпуса данных используется структурированный подход, основанный на фреймворке доменных знаний, который позволяет собирать, очищать и систематизировать тексты из книг, статей и других источников. Для обработки сложных знаний в области аналогового дизайна, модель применяет метод гранулярного распределения знаний. Он разбивает текст на мелкие части, где агенты обучения используют методы самостоятельного обучения для извлечения вопросов и ответов, а также углубленных аналитических моделей, позволяющих формировать обучающие данные. Особенностью является использование нескольких агентов, каждый из которых отвечает за различные аспекты лабораторной работы, включая моделирование, расчет и диагностику. Также значительное внимание уделяется разработке новых методов обучения, включая алгоритмы, нацеленные на повышение точности и уменьшение вибрации данных. ## Результаты Тесты проводились на широко известном наборе тестов AMSBench-TQA, посвященных оценке знаний в области аналогового конструирования. Обученная модель "AnalogSeeker" показала результат 85.04% в точности, что превышает результаты оригинальной модели на 15.67% и становится конкурентоспособной среди главных коммерческих моделей. Также проводились эксперименты в области проектирования операционных усилителей, где "AnalogSeeker" продемонстрировала высокую эффективность. Результаты показали, что модель может значительно улучшить процессы разработки, снижая время и ресурсы, необходимые для разработки и верификации схем. ## Значимость "AnalogSeeker" может быть применена во многих областях, от проектирования электронных устройств до обучения специалистов в этой сфере. Основ
Annotation:
In this paper, we propose AnalogSeeker, an effort toward an open-source foundation language model for analog circuit design, with the aim of integrating domain knowledge and giving design assistance. To overcome the scarcity of data in this field, we employ a corpus collection strategy based on the domain knowledge framework of analog circuits. High-quality, accessible textbooks across relevant subfields are systematically curated and cleaned into a textual domain corpus. To address the complexi...
ID: 2508.10409v1 cs.AR, cs.AI
Показано 31 - 40 из 41 записей