Speech Command Recognition Using LogNNet Reservoir Computing for Embedded Systems
2509.00862v1
cs.SD, cs.AI, cs.LG, eess.AS
2025-09-05
Авторы:
Yuriy Izotov, Andrei Velichko
Резюме на русском
#### Контекст
Голосовое управление встраиваемых систем и Интернета вещей (IoT) широко используется для управления устройствами, такими как домашние электроприборы, смартфоны и даже автомобили. Однако реализация эффективного речевого распознавания команд на таких устройствах сталкивается с ограничениями в ресурсах, такими как низкая мощность вычислений, ограниченная память и ток. Традиционные модели глубокого обучения требуют больших ресурсов, что делает их неэффективными для использования в этих системах. Этот краткий обзор сосредотачивается на разработке энергоэффективных алгоритмов речевого распознавания, которые могут быть интегрированы в устройства с ограниченными ресурсами.
#### Метод
Методология разработки речевого распознавания основывается на сочетании трех основных компонентов: системы воспитанного упрощенного классификатора LogNNet, оптимизированного протокола извлечения признаков Mel-Frequency Cepstral Coefficients (MFCC) и алгоритма активности речи (Voice Activity Detection, VAD). Алгоритм VAD используется для определения моментов во вводе, когда происходит речь. Функции MFCC извлекаются из звуковых сигналов, чтобы описать характеристики голоса. Затем эти признаки передаются в LogNNet классификатор, который распознает речевые команды. LogNNet имеет небольшое число параметров, что делает его пригодным для использования в устройствах с ограниченными ресурсами.
#### Результаты
Для оценки системы были проведены эксперименты с использованием 4 команд из Speech Commands dataset, ресемплированных до 8 кГц. Было проанализировано четыре способа агрегирования MFCC, и был выбран метод адаптивного биннинга, который дает лучшую связь точности и компактности. LogNNet классификатор, с архитектурой 64:33:9:4, достиг 92.04% точности при оценке с независимым способом обучения. Имплементация на Arduino Nano 33 IoT (ARM Cortex-M0+, 48 МГц, 32 КБ RAM) показала, что система может работать в режиме реального времени, распознавая голосовые команды с 90% точностью. Это требует всего 18 КБ RAM, что составляет 55% от доступной памяти.
#### Значимость
Разработанная система может быть применена в различных областях, таких как домашние автоматизационные системы, беспроводные сенсорные сети и системы поддержки ручного управления. Она предлагает высокую эффективность в реальном времени и значительно меньший объем ресурсов, чем традиционные модели глубокого обучения. Эту модель можно использовать для управления устройствами, когда требуется минимальное потребление энергии и малое количество памяти. Это делает ее подходящей для применения в сетях IoT и в технологиях "умного" дома.
Abstract
This paper presents a low-resource speech-command recognizer combining
energy-based voice activity detection (VAD), an optimized Mel-Frequency
Cepstral Coefficients (MFCC) pipeline, and the LogNNet reservoir-computing
classifier. Using four commands from the Speech Commands da-taset downsampled
to 8 kHz, we evaluate four MFCC aggregation schemes and find that adaptive
binning (64-dimensional feature vector) offers the best accuracy-to-compactness
trade-off. The LogNNet classifier with architecture 64:33:9:4 reaches 92.04%
accuracy under speaker-independent evaluation, while requiring significantly
fewer parameters than conventional deep learn-ing models. Hardware
implementation on Arduino Nano 33 IoT (ARM Cor-tex-M0+, 48 MHz, 32 KB RAM)
validates the practical feasibility, achieving ~90% real-time recognition
accuracy while consuming only 18 KB RAM (55% utilization). The complete
pipeline (VAD -> MFCC -> LogNNet) thus enables reliable on-device
speech-command recognition under strict memory and compute limits, making it
suitable for battery-powered IoT nodes, wire-less sensor networks, and
hands-free control interfaces.