Full-Frequency Temporal Patching and Structured Masking for Enhanced Audio Classification
2508.21243v1
cs.SD, cs.AI
2025-09-02
Авторы:
Aditya Makineni, Baocheng Geng, Qing Tian
Резюме на русском
#### Контекст
Изучение звуковых классификационных задач находится в центре внимания в глубоком обучении, поскольку он имеет широкие приложения в распознавании речи, отслеживании звуков и анализе аудиоданных. Однако существуют сложности в моделировании аудио последовательностей, включая необходимость сохранения информации о частотах и времени в составе спектрограмм. Для решения этой проблемы вводятся различные патчинг-стратегии, способные лучше адаптироваться к характеристикам аудиоданных. Несмотря на успех трансформеров и State-Space Models (SSMs) в этой области, применение квадратных патчей наряду с классической преобразовательной архитектурой Audio Spectrogram Transformer (AST) и Audio Mamba (AuM) приводит к неэффективности в расчетах и сокращению точности. Наша работа направлена на улучшение эффективности моделей через более естественное патчинг.
#### Метод
Мы предлагаем Full-Frequency Temporal Patching (FFTP), новая стратегия патчинга, которая полностью соответствует характеристикам временно-частотных характеристик спектрограмм. Эта стратегия объединяет весь диапазон частот с локальным контекстом времени, сохраняя гармоническую структуру и уменьшая количество патчей. Чтобы совершенствовать информативность моделей, мы также предлагаем SpecMask, метод трансформации спектрограммы, который комбинирует полнофазовые и локально-частотные маскирования, сохраняя последовательность в оптимальном диапазоне и экономя вычислительные ресурсы. Финальная модель включает патчинг FFTP в архитектуры AST и AuM, а SpecMask применяется в процессе обучения.
#### Результаты
Мы провели эксперименты на AudioSet-18k и SpeechCommandsV2. Наша модель FFTP с SpecMask показала улучшение метрики mAP на +6.76 на AudioSet-18k и +8.46 на SpeechCommandsV2. Это свидетельствует о том, что улучшенные патчинг-стратегии влияют на точность классификации. В то же время, метод FFTP снизил потребление вычислительных ресурсов на 83.26%, показав высокую эффективность. Это означает, что FFTP предлагает существенное улучшение как в качестве классификации, так и в скорости обработки.
#### Значимость
Решение, предложенное в нашей работе, может быть применено в многочисленных областях, таких как распознавание речи, мониторинг звуков и анализ музыкальных композиций. Улучшенные патчинг-стратегии и метод SpecMask делают модели более эффективными и точными. Этот подход может сильно повлиять на развитие звуковой обработки, повышая как точность, так и эффективность работы моделей.
#### Выводы
Мы успешно продемонстрировали, что FFTP и SpecMask могут значительно улучшить работу моделей AST и AuM. Наши рез
Abstract
Transformers and State-Space Models (SSMs) have advanced audio classification
by modeling spectrograms as sequences of patches. However, existing models such
as the Audio Spectrogram Transformer (AST) and Audio Mamba (AuM) adopt square
patching from computer vision, which disrupts continuous frequency patterns and
produces an excessive number of patches, slowing training, and increasing
computation. We propose Full-Frequency Temporal Patching (FFTP), a patching
strategy that better matches the time-frequency asymmetry of spectrograms by
spanning full frequency bands with localized temporal context, preserving
harmonic structure, and significantly reducing patch count and computation. We
also introduce SpecMask, a patch-aligned spectrogram augmentation that combines
full-frequency and localized time-frequency masks under a fixed masking budget,
enhancing temporal robustness while preserving spectral continuity. When
applied on both AST and AuM, our patching method with SpecMask improves mAP by
up to +6.76 on AudioSet-18k and accuracy by up to +8.46 on SpeechCommandsV2,
while reducing computation by up to 83.26%, demonstrating both performance and
efficiency gains.
Ссылки и действия
Дополнительные ресурсы: