Explainability of CNN Based Classification Models for Acoustic Signal

2509.08717v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-09-12
Авторы:

Zubair Faruqui, Mackenzie S. McIntire, Rahul Dubey, Jay McEntee

Резюме на русском

## Контекст Акустические сигналы животных являются важной источником информации для изучения поведения, экологии и эволюции различных видов. Однако анализ этих сигналов часто сталкивается с проблемами, связанными с их комплексностью и большим объемом данных. В статье рассматривается применение глубоких нейросетей для классификации звуковых сигналов птиц, которые имеют сильную географическую разнообразие в т Tехнологии звукозаписи и анализа позволяют собирать большие объемы данных, но их интерпретация часто требует больших усилий и специализированных знаний. Развитие Искусственного Интеллекта (ИИ) и, в частности, Эксплаинэйбел ИИ (XAI), предлагает новые возможности для понимания и интерпретации результатов акустического анализа. Однако, применение XAI в биоакустике, в частности, в анализе звуков птиц, до сих пор остается недостаточно исследовано. Целью данной статьи является изучение возможностей применения XAI для понимания моделей классификации звуков, а также выявление шаблонов и причин, по которым модель принимает определенные решения. ## Метод Для проведения исследования были использованы звуковые записи птиц из разных районов жизнедеятельности в Северной Америке. Звуковые сигналы были преобразованы в изображения в формате спектрограмм, которые являются входным форматом для нейронной сети. Модель классификации основывалась на архитектуре глубоких совокупных нейронных сетей (CNN), которая была обучена классифицировать звуки на основе их спектрограмм. Для того, чтобы понять, что именно учитывает модель при принятии решения, применены методы Эксплаинэйбл ИИ. Эти методы могут быть разделены на две категории: модельно-зависимые (DeepLIFT, Grad-CAM) и модельно-независимые (LIME, SHAP). Методы LIME и SHAP работают путем создания интерпретируемых представлений входных данных, показывая, какие части сигнала влияют на решение модели. В то же время, DeepLIFT и Grad-CAM относятся к модельно-зависимым методам, которые используют внутреннюю структуру нейросети для показания, как каждая часть входного сигнала влияет на выходную классификацию. ## Результаты Использование CNN для классификации звуков птиц дало высокую точность (94.8%) в распознавании различных типов звуков. Для интерпретации решений модели были применены XAI-техники. Легенды LIME и SHAP показали, какие части спектрограммы имеют сильнейшее влияние на классификацию. Например, LIME показал, что звуки с высокой частотой и сильным амплитудовым диапазоном имеют большую важность для распознавания

Abstract

Explainable Artificial Intelligence (XAI) has emerged as a critical tool for interpreting the predictions of complex deep learning models. While XAI has been increasingly applied in various domains within acoustics, its use in bioacoustics, which involves analyzing audio signals from living organisms, remains relatively underexplored. In this paper, we investigate the vocalizations of a bird species with strong geographic variation throughout its range in North America. Audio recordings were converted into spectrogram images and used to train a deep Convolutional Neural Network (CNN) for classification, achieving an accuracy of 94.8\%. To interpret the model's predictions, we applied both model-agnostic (LIME, SHAP) and model-specific (DeepLIFT, Grad-CAM) XAI techniques. These techniques produced different but complementary explanations, and when their explanations were considered together, they provided more complete and interpretable insights into the model's decision-making. This work highlights the importance of using a combination of XAI techniques to improve trust and interoperability, not only in broader acoustics signal analysis but also argues for broader applicability in different domain specific tasks.

Ссылки и действия