An overview of neural architectures for self-supervised audio representation learning from masked spectrograms

2509.18691v1 cs.SD, cs.AI, eess.AS 2025-09-25
Авторы:

Sarthak Yadav, Sergios Theodoridis, Zheng-Hua Tan

Резюме на русском

#### Контекст Нейронные сети становятся все более важной частью машинного обучения, особенно для обработки аудиоданных. Одна из задач, которая привлекла внимание, — это обучение от неоркестрованных данных (self-supervised learning), когда модель выучивает семантически значимые представления без использования меток. Маскированное моделирование спектрограмм (masked spectrogram modeling) является одним из таких подходов, где модель предсказывает отсутствующие части аудиоспектрограммы, чтобы получить контекстуемые представления. Этот подход, основанный на трансформерной архитектуре, стал ключевым для создания основных моделей аудио (audio foundation models). Однако недавно возросло интерес к повторному осмыслению последовательностного моделирования посредством состояний состояния состояния (state-space models) и продвинутых вариантах LSTM (например, xLSTM). Настоящая статья стремится предоставить подробный обзор этих тем и разработать основу для сравнения методов. #### Метод Мы рассматриваем две основные методологии: моделирование масок спектрограмм и расширенные подходы к последовательному моделированию (например, Mamba и xLSTM). Для сравнения мы используем обучение с маскированной спектрограммой, где некоторые части аудиоданных скрываются, и модель должна их восстановить. Мы применяем обученные модели к 10 различным задачам классификации аудио, при этом оцениваем их качество и рентабельность. Мы также проводим сравнения между трансформером, Mamba и xLSTM, чтобы определить их сильные и слабые стороны. #### Результаты Мы провели эксперименты на десяти различных задачах классификации аудио, включая распознавание речи, музыки и звуков окружения. Модели, основанные на трансформерах, показали высокую точность, особенно при работе с большими объемами данных. Однако Mamba и xLSTM показали более эффективность в обработке длинных последовательностей, снизив нагрузку на вычисления. Наши результаты показывают, что Mamba и xLSTM лучше подходят для задач, где нужно обрабатывать длинные аудиопотоки, в то время как трансформеры более эффективны для кратких входных сигналов. #### Значимость Наша работа имеет значительное значение для развития обучения с подкреплением без меток в аудиоданных. Мы предоставляем инструментарий для сравнения различных подходов, что позволяет выбрать решение, наиболее подходящее для конкретной задачи. Наши результаты могут быть полезны для разработчиков моделей, которые ищут эффективные способы обработки аудиоданных. Мы также открываем возможности для будущих исследований в области состояния состояния состояния и последовательных моделей для аудиоданных. #### Выводы Мы пред

Abstract

In recent years, self-supervised learning has amassed significant interest for training deep neural representations without labeled data. One such self-supervised learning approach is masked spectrogram modeling, where the objective is to learn semantically rich contextual representations by predicting removed or hidden portions of the input audio spectrogram. With the Transformer neural architecture at its core, masked spectrogram modeling has emerged as the prominent approach for learning general purpose audio representations, a.k.a. audio foundation models. Meanwhile, addressing the issues of the Transformer architecture, in particular the underlying Scaled Dot-product Attention operation, which scales quadratically with input sequence length, has led to renewed interest in recurrent sequence modeling approaches. Among them, Selective structured state space models (such as Mamba) and extended Long Short-Term Memory (xLSTM) are the two most promising approaches which have experienced widespread adoption. While the body of work on these two topics continues to grow, there is currently a lack of an adequate overview encompassing the intersection of these topics. In this paper, we present a comprehensive overview of the aforementioned research domains, covering masked spectrogram modeling and the previously mentioned neural sequence modeling architectures, Mamba and xLSTM. Further, we compare Transformers, Mamba and xLSTM based masked spectrogram models in a unified, reproducible framework on ten diverse downstream audio classification tasks, which will help interested readers to make informed decisions regarding suitability of the evaluated approaches to adjacent applications.

Ссылки и действия