An overview of neural architectures for self-supervised audio representation learning from masked spectrograms
2509.18691v1
cs.SD, cs.AI, eess.AS
2025-09-25
Авторы:
Sarthak Yadav, Sergios Theodoridis, Zheng-Hua Tan
Резюме на русском
#### Контекст
Нейронные сети становятся все более важной частью машинного обучения, особенно для обработки аудиоданных. Одна из задач, которая привлекла внимание, — это обучение от неоркестрованных данных (self-supervised learning), когда модель выучивает семантически значимые представления без использования меток. Маскированное моделирование спектрограмм (masked spectrogram modeling) является одним из таких подходов, где модель предсказывает отсутствующие части аудиоспектрограммы, чтобы получить контекстуемые представления. Этот подход, основанный на трансформерной архитектуре, стал ключевым для создания основных моделей аудио (audio foundation models). Однако недавно возросло интерес к повторному осмыслению последовательностного моделирования посредством состояний состояния состояния (state-space models) и продвинутых вариантах LSTM (например, xLSTM). Настоящая статья стремится предоставить подробный обзор этих тем и разработать основу для сравнения методов.
#### Метод
Мы рассматриваем две основные методологии: моделирование масок спектрограмм и расширенные подходы к последовательному моделированию (например, Mamba и xLSTM). Для сравнения мы используем обучение с маскированной спектрограммой, где некоторые части аудиоданных скрываются, и модель должна их восстановить. Мы применяем обученные модели к 10 различным задачам классификации аудио, при этом оцениваем их качество и рентабельность. Мы также проводим сравнения между трансформером, Mamba и xLSTM, чтобы определить их сильные и слабые стороны.
#### Результаты
Мы провели эксперименты на десяти различных задачах классификации аудио, включая распознавание речи, музыки и звуков окружения. Модели, основанные на трансформерах, показали высокую точность, особенно при работе с большими объемами данных. Однако Mamba и xLSTM показали более эффективность в обработке длинных последовательностей, снизив нагрузку на вычисления. Наши результаты показывают, что Mamba и xLSTM лучше подходят для задач, где нужно обрабатывать длинные аудиопотоки, в то время как трансформеры более эффективны для кратких входных сигналов.
#### Значимость
Наша работа имеет значительное значение для развития обучения с подкреплением без меток в аудиоданных. Мы предоставляем инструментарий для сравнения различных подходов, что позволяет выбрать решение, наиболее подходящее для конкретной задачи. Наши результаты могут быть полезны для разработчиков моделей, которые ищут эффективные способы обработки аудиоданных. Мы также открываем возможности для будущих исследований в области состояния состояния состояния и последовательных моделей для аудиоданных.
#### Выводы
Мы пред
Abstract
In recent years, self-supervised learning has amassed significant interest
for training deep neural representations without labeled data. One such
self-supervised learning approach is masked spectrogram modeling, where the
objective is to learn semantically rich contextual representations by
predicting removed or hidden portions of the input audio spectrogram. With the
Transformer neural architecture at its core, masked spectrogram modeling has
emerged as the prominent approach for learning general purpose audio
representations, a.k.a. audio foundation models. Meanwhile, addressing the
issues of the Transformer architecture, in particular the underlying Scaled
Dot-product Attention operation, which scales quadratically with input sequence
length, has led to renewed interest in recurrent sequence modeling approaches.
Among them, Selective structured state space models (such as Mamba) and
extended Long Short-Term Memory (xLSTM) are the two most promising approaches
which have experienced widespread adoption. While the body of work on these two
topics continues to grow, there is currently a lack of an adequate overview
encompassing the intersection of these topics. In this paper, we present a
comprehensive overview of the aforementioned research domains, covering masked
spectrogram modeling and the previously mentioned neural sequence modeling
architectures, Mamba and xLSTM. Further, we compare Transformers, Mamba and
xLSTM based masked spectrogram models in a unified, reproducible framework on
ten diverse downstream audio classification tasks, which will help interested
readers to make informed decisions regarding suitability of the evaluated
approaches to adjacent applications.
Ссылки и действия
Дополнительные ресурсы: