ESTM: An Enhanced Dual-Branch Spectral-Temporal Mamba for Anomalous Sound Detection

2509.02471v1 cs.SD, cs.LG 2025-09-06

Авторы:

Chengyuan Ma, Peng Jia, Hongyue Guo, Wenming Yang

Резюме на русском

## Контекст Испытательный звук — это критический индикатор для определения работоспособности индустриальных оборудований. Определение аномалий в звуках может предупредить о возможных дефектах и снизить риск непредвиденных сбоев. Однако моделирование аккустических признаков в асинхронном условии остается сложной задачей. Трудности возникают из-за недостаточного восприятия длительных характеристик времени и относительной связи между частотными полосами. Имеющиеся алгоритмы часто не могут успешно справиться с такими ограничениями, что приводит к неточностям в детектировании. Наша мотивация заключается в разработке совершенно нового подхода, который мог бы существенно улучшить точность детекции аномалий в звуках. ## Метод Мы предлагаем ESTM (Enhanced Dual-Branch Spectral-Temporal Mamba), состоящее из двух важных компонентов: двухслойной архитектуры Mamba и Selective State-Space Models (SSM). Mamba архитектура оптимизирует моделирование временно-частотных характеристик, обеспечивая точное распакование данных в многомерные признаки. SSM, в свою очередь, улучшает моделирование длинных последовательностей, позволяя лучше охватывать динамические изменения. Также, в билинейной модели TriStat-Gating (TSG) включены сложные механизмы, увеличивающие чувствительность к аномалиям. Эти компоненты объединены в совместной работе, чтобы обеспечить более точное и эффективное детектирование аномалий. ## Результаты Мы проверили нашу модель на DCASE 2020 Task 2 dataset, где она сравнялась с текущими стандартами в области ASD. Оценки показали, что ESTM превосходит другие методы по точности детекции аномалий и общей точности классификации. Мы также провели подробный анализ настройки параметров и проверили его влияние на производительность. Эти результаты продемонстрировали, что ESTM — эффективный инструмент для аномалий в звуковой сигнализации, особенно при работе с звуковыми потоками, где длительные характеристики и взаимосвязи частот являются ключевыми характеристиками. ## Значимость ESTM может быть применено во многих отраслях, включая промышленность, транспорт и здравоохранение, где мониторинг звука критичен для обнаружения аномалий. Одним из основных преимуществ является улучшенная точность детекции, что может привести к более эффективному управлению и повышению надежности оборудования. Этот подход также открывает пути для дальнейших исследований в области акустического моделирования и автоматизированных систем мониторинга. ## Выводы Мы представили ESTM — новую модель для детекции аномалий в звуках, которая улучшает точность и обнаружение длинных ха

Abstract

The core challenge in industrial equipment anoma lous sound detection (ASD) lies in modeling the time-frequency coupling characteristics of acoustic features. Existing modeling methods are limited by local receptive fields, making it difficult to capture long-range temporal patterns and cross-band dynamic coupling effects in machine acoustic features. In this paper, we propose a novel framework, ESTM, which is based on a dual-path Mamba architecture with time-frequency decoupled modeling and utilizes Selective State-Space Models (SSM) for long-range sequence modeling. ESTM extracts rich feature representations from different time segments and frequency bands by fusing enhanced Mel spectrograms and raw audio features, while further improving sensitivity to anomalous patterns through the TriStat-Gating (TSG) module. Our experiments demonstrate that ESTM improves anomalous detection performance on the DCASE 2020 Task 2 dataset, further validating the effectiveness of the proposed method.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ESTM: An Enhanced Dual-Branch Spectral-Temporal Mamba for Anomalous Sound Detection

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Contract-Driven QoE Auditing for Speech and Singing Services: From MOS Regressio...

Generative Multi-modal Feedback for Singing Voice Synthesis Evaluation

Differentiable Attenuation Filters for Feedback Delay Networks

DHAuDS: A Dynamic and Heterogeneous Audio Benchmark for Test-Time Adaptation

Count The Notes: Histogram-Based Supervision for Automatic Music Transcription

Навигация