Sparse Autoencoders Make Audio Foundation Models more Explainable

2509.24793v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-10-01
Авторы:

Théo Mariotte, Martin Lebourdais, Antonio Almudévar, Marie Tahon, Alfonso Ortega, Nicolas Dugué

Резюме на русском

#### Контекст Аудио-предварительно обученные модели широко используются для решения задач в области обработки речи, детекции звуковых событий и исследования музыкальной информации. Однако, представления, извлеченные этими моделями, часто остаются непонятными. Анализ таких представлений ограничивается линейным пробным подходом, что не позволяет получить полное представление о том, что эти модели действительно "видят" в звуковых данных. Это приводит к проблемам в их использовании для задач, требующих транспарентности и объяснимости решений. Наша мотивация состоит в том, чтобы раскрыть эти представления, обеспечив более четкое понимание процесса обучения без надзора и улучшить понимание факторов, которые вкладываются в звуковые представления. #### Метод Мы предлагаем использовать **Sparse Autoencoders (SAEs)** для анализа представлений, извлеченных аудио-предварительно обученными моделями. SAEs — это архитектуры нейронных сетей, которые научились сокращать размерность входных данных, сохраняя основные черты информации. В нашем случае, мы используем SAEs для декомпозиции представлений, извлеченных аудио-предварительно обученными моделями. Эти SAEs позволяют идентифицировать важные факторы, включенные в представления, и дают возможность "разглядеть" то, что именно сеть учится. Мы также применяем этот подход к классификации техники пени, чтобы демонстрировать пользу SAEs в практических сценариях. #### Результаты Мы проводим эксперименты с использованием различных аудио-предварительно обученных моделей, таких как Wav2Vec и HuBERT. Мы показываем, что SAEs могут декомпозировать что-то, что модели "видят" в звуковых данных, в том числе влияние таких факторов, как интонация, ритм и структура пение. Эти результаты показывают, что SAEs действительно могут улучшить четкость и понимание того, что происходит внутри аудио-предварительно обученных моделей. Мы также показываем, что SAEs могут улучшить разделяемость важных вокальных атрибутов, что делает их эффективным инструментом для разбора звуковых представлений. #### Значимость Мы видим применение этого подхода во многих областях, включая классификацию звуковых событий, обработку речи и стилизацию музыки. Однако, главное преимущество SAEs заключается в том, что они позволяют получить более транспарентные инсайты из аудио-предварительно обученных моделей, что в свою очередь может сделать такие модели более доступными для применения в реальной жизни. Эта транспарентность не только улучшает понимание моделей, но и может помочь в разработке более эффективных моделей в будущем. #### Выводы Мы демонстрируем, что SAEs могут с

Abstract

Audio pretrained models are widely employed to solve various tasks in speech processing, sound event detection, or music information retrieval. However, the representations learned by these models are unclear, and their analysis mainly restricts to linear probing of the hidden representations. In this work, we explore the use of Sparse Autoencoders (SAEs) to analyze the hidden representations of pretrained models, focusing on a case study in singing technique classification. We first demonstrate that SAEs retain both information about the original representations and class labels, enabling their internal structure to provide insights into self-supervised learning systems. Furthermore, we show that SAEs enhance the disentanglement of vocal attributes, establishing them as an effective tool for identifying the underlying factors encoded in the representations.

Ссылки и действия