Full-Frequency Temporal Patching and Structured Masking for Enhanced Audio Classification

2508.21243v1 cs.SD, cs.AI 2025-09-02

Авторы:

Aditya Makineni, Baocheng Geng, Qing Tian

Резюме на русском

#### Контекст Изучение звуковых классификационных задач находится в центре внимания в глубоком обучении, поскольку он имеет широкие приложения в распознавании речи, отслеживании звуков и анализе аудиоданных. Однако существуют сложности в моделировании аудио последовательностей, включая необходимость сохранения информации о частотах и времени в составе спектрограмм. Для решения этой проблемы вводятся различные патчинг-стратегии, способные лучше адаптироваться к характеристикам аудиоданных. Несмотря на успех трансформеров и State-Space Models (SSMs) в этой области, применение квадратных патчей наряду с классической преобразовательной архитектурой Audio Spectrogram Transformer (AST) и Audio Mamba (AuM) приводит к неэффективности в расчетах и сокращению точности. Наша работа направлена на улучшение эффективности моделей через более естественное патчинг. #### Метод Мы предлагаем Full-Frequency Temporal Patching (FFTP), новая стратегия патчинга, которая полностью соответствует характеристикам временно-частотных характеристик спектрограмм. Эта стратегия объединяет весь диапазон частот с локальным контекстом времени, сохраняя гармоническую структуру и уменьшая количество патчей. Чтобы совершенствовать информативность моделей, мы также предлагаем SpecMask, метод трансформации спектрограммы, который комбинирует полнофазовые и локально-частотные маскирования, сохраняя последовательность в оптимальном диапазоне и экономя вычислительные ресурсы. Финальная модель включает патчинг FFTP в архитектуры AST и AuM, а SpecMask применяется в процессе обучения. #### Результаты Мы провели эксперименты на AudioSet-18k и SpeechCommandsV2. Наша модель FFTP с SpecMask показала улучшение метрики mAP на +6.76 на AudioSet-18k и +8.46 на SpeechCommandsV2. Это свидетельствует о том, что улучшенные патчинг-стратегии влияют на точность классификации. В то же время, метод FFTP снизил потребление вычислительных ресурсов на 83.26%, показав высокую эффективность. Это означает, что FFTP предлагает существенное улучшение как в качестве классификации, так и в скорости обработки. #### Значимость Решение, предложенное в нашей работе, может быть применено в многочисленных областях, таких как распознавание речи, мониторинг звуков и анализ музыкальных композиций. Улучшенные патчинг-стратегии и метод SpecMask делают модели более эффективными и точными. Этот подход может сильно повлиять на развитие звуковой обработки, повышая как точность, так и эффективность работы моделей. #### Выводы Мы успешно продемонстрировали, что FFTP и SpecMask могут значительно улучшить работу моделей AST и AuM. Наши рез

Abstract

Transformers and State-Space Models (SSMs) have advanced audio classification by modeling spectrograms as sequences of patches. However, existing models such as the Audio Spectrogram Transformer (AST) and Audio Mamba (AuM) adopt square patching from computer vision, which disrupts continuous frequency patterns and produces an excessive number of patches, slowing training, and increasing computation. We propose Full-Frequency Temporal Patching (FFTP), a patching strategy that better matches the time-frequency asymmetry of spectrograms by spanning full frequency bands with localized temporal context, preserving harmonic structure, and significantly reducing patch count and computation. We also introduce SpecMask, a patch-aligned spectrogram augmentation that combines full-frequency and localized time-frequency masks under a fixed masking budget, enhancing temporal robustness while preserving spectral continuity. When applied on both AST and AuM, our patching method with SpecMask improves mAP by up to +6.76 on AudioSet-18k and accuracy by up to +8.46 on SpeechCommandsV2, while reducing computation by up to 83.26%, demonstrating both performance and efficiency gains.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Full-Frequency Temporal Patching and Structured Masking for Enhanced Audio Classification

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация