Comprehensive Evaluation of CNN-Based Audio Tagging Models on Resource-Constrained Devices
2509.14049v2
cs.SD, cs.AI, eess.AS
2025-09-22
Авторы:
Jordi Grau-Haro, Ruben Ribes-Serrano, Javier Naranjo-Alcazar, Marta Garcia-Ballesteros, Pedro Zuccarello
Резюме на русском
## Контекст
Контекст этого исследования заключается в изучении применения сверточных нейронных сетей (CNN) для аудио-тегов (audio tagging) на ресурсно-ограниченных устройствах, таких как Raspberry Pi. Хотя CNNs демонстрируют высокую эффективность в аудио-тегах, их развертывание на системах с ограниченными ресурсами сталкивается с проблемами, такими как высокое потребление вычислительных ресурсов и тепловыделение. Таким образом, целью данного исследования является оценка различных CNN-моделей, включая стандартные архитектуры и новые модели, и выявление наиболее эффективных решений для реального развертывания в сценариях работы на краевых устройствах.
## Метод
Методология исследования включает в себя оценку нескольких CNN-архитектур, включая 1D и 2D модели из фреймворка Pretrained Audio Neural Networks (PANNs), модель ConvNeXt для аудио-классификации и MobileNetV3. Также были оценены две модели PANNs-порожденные CNN9 и CNN13. Все модели были преобразованы в формат Open Neural Network Exchange (ONNX) для повышения портируемости и эффективности развертывания. Исследования включали непрерывные 24-часовые сессии инференса для оценки постоянства производительности и управления тепловым режимом. Это позволило изучить влияние различных моделей на вычислительную эффективность и надежность в реальных условиях работы на краевых устройствах.
## Результаты
В ходе экспериментов были изучены различные CNN-модели на Raspberry Pi, включая оценку их потребление вычислительных ресурсов, стабильности и теплового режима. Найдено, что некоторые модели, такие как CNN9 и CNN13, показали более высокую эффективность и стабильность в сравнении с другими архитектурами. Также было замечено, что с помощью оптимизации и правильного выбора моделей, можно достичь постоянной инференсной задержки и эффективного управления тепловым режимом в течение длительных сессий. Эти результаты демонстрируют возможность эффективного развертывания CNN-моделей для тегов аудио в реальных условиях работы на краевых устройствах.
## Значимость
Результаты имеют важное значение для области развития и развертывания моделей для тегов аудио на краевых устройствах. Они демонстрируют, что с использованием оптимальных моделей и оптимизаций можно решить проблемы с вычислительной эффективностью и тепловым режимом, которые характерны для таких устройств. Эти находки могут быть применены в различных сценариях, таких как анализ звука для систем мониторинга или аудио-реалистичности в реальном времени. Эти достижения открывают новые возможности для использования CNNs в реальных сценариях работы на краевых устройствах.
## Выводы
Выводы этого исследования подчер
Abstract
Convolutional Neural Networks (CNNs) have demonstrated exceptional
performance in audio tagging tasks. However, deploying these models on
resource-constrained devices like the Raspberry Pi poses challenges related to
computational efficiency and thermal management. In this paper, a comprehensive
evaluation of multiple convolutional neural network (CNN) architectures for
audio tagging on the Raspberry Pi is conducted, encompassing all 1D and 2D
models from the Pretrained Audio Neural Networks (PANNs) framework, a
ConvNeXt-based model adapted for audio classification, as well as MobileNetV3
architectures. In addition, two PANNs-derived networks, CNN9 and CNN13,
recently proposed, are also evaluated. To enhance deployment efficiency and
portability across diverse hardware platforms, all models are converted to the
Open Neural Network Exchange (ONNX) format. Unlike previous works that focus on
a single model, our analysis encompasses a broader range of architectures and
involves continuous 24-hour inference sessions to assess performance stability.
Our experiments reveal that, with appropriate model selection and optimization,
it is possible to maintain consistent inference latency and manage thermal
behavior effectively over extended periods. These findings provide valuable
insights for deploying audio tagging models in real-world edge computing
scenarios.
Ссылки и действия
Дополнительные ресурсы: