Speech Command Recognition Using LogNNet Reservoir Computing for Embedded Systems

2509.00862v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-09-05

Авторы:

Yuriy Izotov, Andrei Velichko

Резюме на русском

#### Контекст Голосовое управление встраиваемых систем и Интернета вещей (IoT) широко используется для управления устройствами, такими как домашние электроприборы, смартфоны и даже автомобили. Однако реализация эффективного речевого распознавания команд на таких устройствах сталкивается с ограничениями в ресурсах, такими как низкая мощность вычислений, ограниченная память и ток. Традиционные модели глубокого обучения требуют больших ресурсов, что делает их неэффективными для использования в этих системах. Этот краткий обзор сосредотачивается на разработке энергоэффективных алгоритмов речевого распознавания, которые могут быть интегрированы в устройства с ограниченными ресурсами. #### Метод Методология разработки речевого распознавания основывается на сочетании трех основных компонентов: системы воспитанного упрощенного классификатора LogNNet, оптимизированного протокола извлечения признаков Mel-Frequency Cepstral Coefficients (MFCC) и алгоритма активности речи (Voice Activity Detection, VAD). Алгоритм VAD используется для определения моментов во вводе, когда происходит речь. Функции MFCC извлекаются из звуковых сигналов, чтобы описать характеристики голоса. Затем эти признаки передаются в LogNNet классификатор, который распознает речевые команды. LogNNet имеет небольшое число параметров, что делает его пригодным для использования в устройствах с ограниченными ресурсами. #### Результаты Для оценки системы были проведены эксперименты с использованием 4 команд из Speech Commands dataset, ресемплированных до 8 кГц. Было проанализировано четыре способа агрегирования MFCC, и был выбран метод адаптивного биннинга, который дает лучшую связь точности и компактности. LogNNet классификатор, с архитектурой 64:33:9:4, достиг 92.04% точности при оценке с независимым способом обучения. Имплементация на Arduino Nano 33 IoT (ARM Cortex-M0+, 48 МГц, 32 КБ RAM) показала, что система может работать в режиме реального времени, распознавая голосовые команды с 90% точностью. Это требует всего 18 КБ RAM, что составляет 55% от доступной памяти. #### Значимость Разработанная система может быть применена в различных областях, таких как домашние автоматизационные системы, беспроводные сенсорные сети и системы поддержки ручного управления. Она предлагает высокую эффективность в реальном времени и значительно меньший объем ресурсов, чем традиционные модели глубокого обучения. Эту модель можно использовать для управления устройствами, когда требуется минимальное потребление энергии и малое количество памяти. Это делает ее подходящей для применения в сетях IoT и в технологиях "умного" дома.

Abstract

This paper presents a low-resource speech-command recognizer combining energy-based voice activity detection (VAD), an optimized Mel-Frequency Cepstral Coefficients (MFCC) pipeline, and the LogNNet reservoir-computing classifier. Using four commands from the Speech Commands da-taset downsampled to 8 kHz, we evaluate four MFCC aggregation schemes and find that adaptive binning (64-dimensional feature vector) offers the best accuracy-to-compactness trade-off. The LogNNet classifier with architecture 64:33:9:4 reaches 92.04% accuracy under speaker-independent evaluation, while requiring significantly fewer parameters than conventional deep learn-ing models. Hardware implementation on Arduino Nano 33 IoT (ARM Cor-tex-M0+, 48 MHz, 32 KB RAM) validates the practical feasibility, achieving ~90% real-time recognition accuracy while consuming only 18 KB RAM (55% utilization). The complete pipeline (VAD -> MFCC -> LogNNet) thus enables reliable on-device speech-command recognition under strict memory and compute limits, making it suitable for battery-powered IoT nodes, wire-less sensor networks, and hands-free control interfaces.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Speech Command Recognition Using LogNNet Reservoir Computing for Embedded Systems

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Advancing Marine Bioacoustics with Deep Generative Models: A Hybrid Augmentation...

Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Automatic Music Sample Identification with Multi-Track Contrastive Learning

Leveraging Whisper Embeddings for Audio-based Lyrics Matching

Навигация