Are Inherently Interpretable Models More Robust? A Study In Music Emotion Recognition
2508.03780v1
cs.SD, cs.AI, eess.AS
2025-08-09
Авторы:
Katharina Hoedt, Arthur Flexer, Gerhard Widmer
Резюме на русском
Модели глубокого обучения часто страдают от нестабильности — они не всегда обеспечивают согласованные выводы при мелких изменениях входных данных. Эта нерешительность часто связана с зависимостью от спурывых корреляций. В статье "Are Inherently Interpretable Models More Robust? A Study In Music Emotion Recognition" авторы рассматривают возможность улучшения устойчивости моделей путем интеграции принципов интерпретируемости. Они сравнивают робастность интерпретируемой модели MER с блэк-бокс-альтернативой и моделью, натренированной с использованием адверсарного обучения. Исследование показало, что интерпретируемые модели не только демонстрируют более высокую устойчивость к адверсарным примерам, но и экономят ресурсы в процессе. Эти результаты подтверждают потенциал интерпретируемых моделей в повышении устойчивости и эффективности в задачах музыкального распознавания эмоций.
Abstract
One of the desired key properties of deep learning models is the ability to
generalise to unseen samples. When provided with new samples that are
(perceptually) similar to one or more training samples, deep learning models
are expected to produce correspondingly similar outputs. Models that succeed in
predicting similar outputs for similar inputs are often called robust. Deep
learning models, on the other hand, have been shown to be highly vulnerable to
minor (adversarial) perturbations of the input, which manage to drastically
change a model's output and simultaneously expose its reliance on spurious
correlations. In this work, we investigate whether inherently interpretable
deep models, i.e., deep models that were designed to focus more on meaningful
and interpretable features, are more robust to irrelevant perturbations in the
data, compared to their black-box counterparts. We test our hypothesis by
comparing the robustness of an interpretable and a black-box music emotion
recognition (MER) model when challenged with adversarial examples. Furthermore,
we include an adversarially trained model, which is optimised to be more
robust, in the comparison. Our results indicate that inherently more
interpretable models can indeed be more robust than their black-box
counterparts, and achieve similar levels of robustness as adversarially trained
models, at lower computational cost.
Ссылки и действия
Дополнительные ресурсы: