Comprehensive Evaluation of CNN-Based Audio Tagging Models on Resource-Constrained Devices

2509.14049v1 cs.SD, cs.AI 2025-09-19
Авторы:

Jordi Grau-Haro, Ruben Ribes-Serrano, Javier Naranjo-Alcazar, Marta Garcia-Ballesteros, Pedro Zuccarello

Резюме на русском

## Контекст Конвективные нейронные сети (CNN) определили новый стандарт в задачах распознавания аудио, таких как audio tagging. Однако, развертывание этих моделей на ресурс-ограниченных устройствах, таких как Raspberry Pi, сопряжено с рядом проблем. Эти ограничения включают высокий энергопотребление, тепловыделение и ресурсозатратность моделей. Особенно это актуально в сферах, где необходима реальной времени обработка аудио, таких как системы автоматического распознавания звуков в окружающей среде или системы мониторинга и оповещения. Этот работу посвящено подробному изучению и сравнению различных моделей CNN для распознавания аудио на Raspberry Pi, с фокусом на совместимости, эффективности и стабильности работы. ## Метод Выбор моделей для опробования включает архитектуры из рамфамы Pretrained Audio Neural Networks (PANNs), такие как CNN9, CNN13, а также модели ConvNeXt и MobileNetV3. Кроме того, был проведен перевод всех моделей в формат Open Neural Network Exchange (ONNX) для обеспечения совместимости и эффективности развертывания на различных платформах. Для оценки производительности и стабильности моделей были проведены тесты в режиме непрерывной работы в течение 24 часов. Это позволило изучить поведение моделей в условиях реального развертывания, включая нагрузку, энергопотребление и тепловыделение. ## Результаты Результаты экспериментов показывают, что CNN9 и CNN13, ориентированные на высокую эффективность, показали лучшую производительность и устойчивость в течение длительного времени. Была зафиксирована возможность поддержания консистентной задержки распознавания при минимальном энергопотреблении и управлении тепловым режимом. Также было замечено, что модели с более глубокими архитектурами, такими как ConvNeXt, демонстрируют высокую точность, но имеют более высокий энергозатратный профиль. ## Значимость Результаты этих исследований имеют применение в сферах, где необходима мобильная аналитика аудио, таких как системы сенсорного мониторинга, автоматизация и аудио-защита. Использование эффективных моделей, таких как CNN9 и CNN13, позволяет осуществить портативное развертывание на ресурс-ограниченных устройствах без значительных стоимостных и технических ограничений. Благодаря этому могут быть решены проблемы, связанные с энергосбережением и тепловым управлением, что имеет решающее значение для широкого применения в среднем и малом бизнесе, а также в области домашнего автоматизации. ## Выводы Полученные результаты подтверждают возможность эффективного развертывания CNN-моделей для распознавания аудио на ресурс-ограниченных устройствах. Особое внимание следует удели

Abstract

Convolutional Neural Networks (CNNs) have demonstrated exceptional performance in audio tagging tasks. However, deploying these models on resource-constrained devices like the Raspberry Pi poses challenges related to computational efficiency and thermal management. In this paper, a comprehensive evaluation of multiple convolutional neural network (CNN) architectures for audio tagging on the Raspberry Pi is conducted, encompassing all 1D and 2D models from the Pretrained Audio Neural Networks (PANNs) framework, a ConvNeXt-based model adapted for audio classification, as well as MobileNetV3 architectures. In addition, two PANNs-derived networks, CNN9 and CNN13, recently proposed, are also evaluated. To enhance deployment efficiency and portability across diverse hardware platforms, all models are converted to the Open Neural Network Exchange (ONNX) format. Unlike previous works that focus on a single model, our analysis encompasses a broader range of architectures and involves continuous 24-hour inference sessions to assess performance stability. Our experiments reveal that, with appropriate model selection and optimization, it is possible to maintain consistent inference latency and manage thermal behavior effectively over extended periods. These findings provide valuable insights for deploying audio tagging models in real-world edge computing scenarios.

Ссылки и действия