Comprehensive Evaluation of CNN-Based Audio Tagging Models on Resource-Constrained Devices
2509.14049v1
cs.SD, cs.AI
2025-09-19
Авторы:
Jordi Grau-Haro, Ruben Ribes-Serrano, Javier Naranjo-Alcazar, Marta Garcia-Ballesteros, Pedro Zuccarello
Резюме на русском
## Контекст
Конвективные нейронные сети (CNN) определили новый стандарт в задачах распознавания аудио, таких как audio tagging. Однако, развертывание этих моделей на ресурс-ограниченных устройствах, таких как Raspberry Pi, сопряжено с рядом проблем. Эти ограничения включают высокий энергопотребление, тепловыделение и ресурсозатратность моделей. Особенно это актуально в сферах, где необходима реальной времени обработка аудио, таких как системы автоматического распознавания звуков в окружающей среде или системы мониторинга и оповещения. Этот работу посвящено подробному изучению и сравнению различных моделей CNN для распознавания аудио на Raspberry Pi, с фокусом на совместимости, эффективности и стабильности работы.
## Метод
Выбор моделей для опробования включает архитектуры из рамфамы Pretrained Audio Neural Networks (PANNs), такие как CNN9, CNN13, а также модели ConvNeXt и MobileNetV3. Кроме того, был проведен перевод всех моделей в формат Open Neural Network Exchange (ONNX) для обеспечения совместимости и эффективности развертывания на различных платформах. Для оценки производительности и стабильности моделей были проведены тесты в режиме непрерывной работы в течение 24 часов. Это позволило изучить поведение моделей в условиях реального развертывания, включая нагрузку, энергопотребление и тепловыделение.
## Результаты
Результаты экспериментов показывают, что CNN9 и CNN13, ориентированные на высокую эффективность, показали лучшую производительность и устойчивость в течение длительного времени. Была зафиксирована возможность поддержания консистентной задержки распознавания при минимальном энергопотреблении и управлении тепловым режимом. Также было замечено, что модели с более глубокими архитектурами, такими как ConvNeXt, демонстрируют высокую точность, но имеют более высокий энергозатратный профиль.
## Значимость
Результаты этих исследований имеют применение в сферах, где необходима мобильная аналитика аудио, таких как системы сенсорного мониторинга, автоматизация и аудио-защита. Использование эффективных моделей, таких как CNN9 и CNN13, позволяет осуществить портативное развертывание на ресурс-ограниченных устройствах без значительных стоимостных и технических ограничений. Благодаря этому могут быть решены проблемы, связанные с энергосбережением и тепловым управлением, что имеет решающее значение для широкого применения в среднем и малом бизнесе, а также в области домашнего автоматизации.
## Выводы
Полученные результаты подтверждают возможность эффективного развертывания CNN-моделей для распознавания аудио на ресурс-ограниченных устройствах. Особое внимание следует удели
Abstract
Convolutional Neural Networks (CNNs) have demonstrated exceptional
performance in audio tagging tasks. However, deploying these models on
resource-constrained devices like the Raspberry Pi poses challenges related to
computational efficiency and thermal management. In this paper, a comprehensive
evaluation of multiple convolutional neural network (CNN) architectures for
audio tagging on the Raspberry Pi is conducted, encompassing all 1D and 2D
models from the Pretrained Audio Neural Networks (PANNs) framework, a
ConvNeXt-based model adapted for audio classification, as well as MobileNetV3
architectures. In addition, two PANNs-derived networks, CNN9 and CNN13,
recently proposed, are also evaluated. To enhance deployment efficiency and
portability across diverse hardware platforms, all models are converted to the
Open Neural Network Exchange (ONNX) format. Unlike previous works that focus on
a single model, our analysis encompasses a broader range of architectures and
involves continuous 24-hour inference sessions to assess performance stability.
Our experiments reveal that, with appropriate model selection and optimization,
it is possible to maintain consistent inference latency and manage thermal
behavior effectively over extended periods. These findings provide valuable
insights for deploying audio tagging models in real-world edge computing
scenarios.
Ссылки и действия
Дополнительные ресурсы: