Comprehensive Evaluation of CNN-Based Audio Tagging Models on Resource-Constrained Devices

2509.14049v2 cs.SD, cs.AI, eess.AS 2025-09-22
Авторы:

Jordi Grau-Haro, Ruben Ribes-Serrano, Javier Naranjo-Alcazar, Marta Garcia-Ballesteros, Pedro Zuccarello

Резюме на русском

## Контекст Контекст этого исследования заключается в изучении применения сверточных нейронных сетей (CNN) для аудио-тегов (audio tagging) на ресурсно-ограниченных устройствах, таких как Raspberry Pi. Хотя CNNs демонстрируют высокую эффективность в аудио-тегах, их развертывание на системах с ограниченными ресурсами сталкивается с проблемами, такими как высокое потребление вычислительных ресурсов и тепловыделение. Таким образом, целью данного исследования является оценка различных CNN-моделей, включая стандартные архитектуры и новые модели, и выявление наиболее эффективных решений для реального развертывания в сценариях работы на краевых устройствах. ## Метод Методология исследования включает в себя оценку нескольких CNN-архитектур, включая 1D и 2D модели из фреймворка Pretrained Audio Neural Networks (PANNs), модель ConvNeXt для аудио-классификации и MobileNetV3. Также были оценены две модели PANNs-порожденные CNN9 и CNN13. Все модели были преобразованы в формат Open Neural Network Exchange (ONNX) для повышения портируемости и эффективности развертывания. Исследования включали непрерывные 24-часовые сессии инференса для оценки постоянства производительности и управления тепловым режимом. Это позволило изучить влияние различных моделей на вычислительную эффективность и надежность в реальных условиях работы на краевых устройствах. ## Результаты В ходе экспериментов были изучены различные CNN-модели на Raspberry Pi, включая оценку их потребление вычислительных ресурсов, стабильности и теплового режима. Найдено, что некоторые модели, такие как CNN9 и CNN13, показали более высокую эффективность и стабильность в сравнении с другими архитектурами. Также было замечено, что с помощью оптимизации и правильного выбора моделей, можно достичь постоянной инференсной задержки и эффективного управления тепловым режимом в течение длительных сессий. Эти результаты демонстрируют возможность эффективного развертывания CNN-моделей для тегов аудио в реальных условиях работы на краевых устройствах. ## Значимость Результаты имеют важное значение для области развития и развертывания моделей для тегов аудио на краевых устройствах. Они демонстрируют, что с использованием оптимальных моделей и оптимизаций можно решить проблемы с вычислительной эффективностью и тепловым режимом, которые характерны для таких устройств. Эти находки могут быть применены в различных сценариях, таких как анализ звука для систем мониторинга или аудио-реалистичности в реальном времени. Эти достижения открывают новые возможности для использования CNNs в реальных сценариях работы на краевых устройствах. ## Выводы Выводы этого исследования подчер

Abstract

Convolutional Neural Networks (CNNs) have demonstrated exceptional performance in audio tagging tasks. However, deploying these models on resource-constrained devices like the Raspberry Pi poses challenges related to computational efficiency and thermal management. In this paper, a comprehensive evaluation of multiple convolutional neural network (CNN) architectures for audio tagging on the Raspberry Pi is conducted, encompassing all 1D and 2D models from the Pretrained Audio Neural Networks (PANNs) framework, a ConvNeXt-based model adapted for audio classification, as well as MobileNetV3 architectures. In addition, two PANNs-derived networks, CNN9 and CNN13, recently proposed, are also evaluated. To enhance deployment efficiency and portability across diverse hardware platforms, all models are converted to the Open Neural Network Exchange (ONNX) format. Unlike previous works that focus on a single model, our analysis encompasses a broader range of architectures and involves continuous 24-hour inference sessions to assess performance stability. Our experiments reveal that, with appropriate model selection and optimization, it is possible to maintain consistent inference latency and manage thermal behavior effectively over extended periods. These findings provide valuable insights for deploying audio tagging models in real-world edge computing scenarios.

Ссылки и действия