ESTM: An Enhanced Dual-Branch Spectral-Temporal Mamba for Anomalous Sound Detection
2509.02471v1
cs.SD, cs.LG
2025-09-06
Авторы:
Chengyuan Ma, Peng Jia, Hongyue Guo, Wenming Yang
Резюме на русском
## Контекст
Испытательный звук — это критический индикатор для определения работоспособности индустриальных оборудований. Определение аномалий в звуках может предупредить о возможных дефектах и снизить риск непредвиденных сбоев. Однако моделирование аккустических признаков в асинхронном условии остается сложной задачей. Трудности возникают из-за недостаточного восприятия длительных характеристик времени и относительной связи между частотными полосами. Имеющиеся алгоритмы часто не могут успешно справиться с такими ограничениями, что приводит к неточностям в детектировании. Наша мотивация заключается в разработке совершенно нового подхода, который мог бы существенно улучшить точность детекции аномалий в звуках.
## Метод
Мы предлагаем ESTM (Enhanced Dual-Branch Spectral-Temporal Mamba), состоящее из двух важных компонентов: двухслойной архитектуры Mamba и Selective State-Space Models (SSM). Mamba архитектура оптимизирует моделирование временно-частотных характеристик, обеспечивая точное распакование данных в многомерные признаки. SSM, в свою очередь, улучшает моделирование длинных последовательностей, позволяя лучше охватывать динамические изменения. Также, в билинейной модели TriStat-Gating (TSG) включены сложные механизмы, увеличивающие чувствительность к аномалиям. Эти компоненты объединены в совместной работе, чтобы обеспечить более точное и эффективное детектирование аномалий.
## Результаты
Мы проверили нашу модель на DCASE 2020 Task 2 dataset, где она сравнялась с текущими стандартами в области ASD. Оценки показали, что ESTM превосходит другие методы по точности детекции аномалий и общей точности классификации. Мы также провели подробный анализ настройки параметров и проверили его влияние на производительность. Эти результаты продемонстрировали, что ESTM — эффективный инструмент для аномалий в звуковой сигнализации, особенно при работе с звуковыми потоками, где длительные характеристики и взаимосвязи частот являются ключевыми характеристиками.
## Значимость
ESTM может быть применено во многих отраслях, включая промышленность, транспорт и здравоохранение, где мониторинг звука критичен для обнаружения аномалий. Одним из основных преимуществ является улучшенная точность детекции, что может привести к более эффективному управлению и повышению надежности оборудования. Этот подход также открывает пути для дальнейших исследований в области акустического моделирования и автоматизированных систем мониторинга.
## Выводы
Мы представили ESTM — новую модель для детекции аномалий в звуках, которая улучшает точность и обнаружение длинных ха
Abstract
The core challenge in industrial equipment anoma lous sound detection (ASD)
lies in modeling the time-frequency coupling characteristics of acoustic
features. Existing modeling methods are limited by local receptive fields,
making it difficult to capture long-range temporal patterns and cross-band
dynamic coupling effects in machine acoustic features. In this paper, we
propose a novel framework, ESTM, which is based on a dual-path Mamba
architecture with time-frequency decoupled modeling and utilizes Selective
State-Space Models (SSM) for long-range sequence modeling. ESTM extracts rich
feature representations from different time segments and frequency bands by
fusing enhanced Mel spectrograms and raw audio features, while further
improving sensitivity to anomalous patterns through the TriStat-Gating (TSG)
module. Our experiments demonstrate that ESTM improves anomalous detection
performance on the DCASE 2020 Task 2 dataset, further validating the
effectiveness of the proposed method.
Ссылки и действия
Дополнительные ресурсы: