Are Inherently Interpretable Models More Robust? A Study In Music Emotion Recognition

2508.03780v1 cs.SD, cs.AI, eess.AS 2025-08-09
Авторы:

Katharina Hoedt, Arthur Flexer, Gerhard Widmer

Резюме на русском

Модели глубокого обучения часто страдают от нестабильности — они не всегда обеспечивают согласованные выводы при мелких изменениях входных данных. Эта нерешительность часто связана с зависимостью от спурывых корреляций. В статье "Are Inherently Interpretable Models More Robust? A Study In Music Emotion Recognition" авторы рассматривают возможность улучшения устойчивости моделей путем интеграции принципов интерпретируемости. Они сравнивают робастность интерпретируемой модели MER с блэк-бокс-альтернативой и моделью, натренированной с использованием адверсарного обучения. Исследование показало, что интерпретируемые модели не только демонстрируют более высокую устойчивость к адверсарным примерам, но и экономят ресурсы в процессе. Эти результаты подтверждают потенциал интерпретируемых моделей в повышении устойчивости и эффективности в задачах музыкального распознавания эмоций.

Abstract

One of the desired key properties of deep learning models is the ability to generalise to unseen samples. When provided with new samples that are (perceptually) similar to one or more training samples, deep learning models are expected to produce correspondingly similar outputs. Models that succeed in predicting similar outputs for similar inputs are often called robust. Deep learning models, on the other hand, have been shown to be highly vulnerable to minor (adversarial) perturbations of the input, which manage to drastically change a model's output and simultaneously expose its reliance on spurious correlations. In this work, we investigate whether inherently interpretable deep models, i.e., deep models that were designed to focus more on meaningful and interpretable features, are more robust to irrelevant perturbations in the data, compared to their black-box counterparts. We test our hypothesis by comparing the robustness of an interpretable and a black-box music emotion recognition (MER) model when challenged with adversarial examples. Furthermore, we include an adversarially trained model, which is optimised to be more robust, in the comparison. Our results indicate that inherently more interpretable models can indeed be more robust than their black-box counterparts, and achieve similar levels of robustness as adversarially trained models, at lower computational cost.

Ссылки и действия