An Enhanced Audio Feature Tailored for Anomalous Sound Detection Based on Pre-trained Models

2508.15334v1 cs.SD, cs.LG, eess.AS 2025-08-23

Авторы:

Guirui Zhong, Qing Wang, Jun Du, Lei Wang, Mingqi Cai, Xin Fang

Резюме на русском

## Контекст Аномальное звучание детекции (Anomalous Sound Detection, ASD) является важной задачей, направленной на выявление нестандартных звуков при эксплуатации машин. Она находит применение в таких областях, как промышленность и техническое обслуживание, где быстрое выявление аномалий может предотвратить крупные убытки и сократить время простоя. Однако существуют ряд проблем, связанных с неопределенностью локализации нестандартных звуков и излишним количеством ненужной информации, такой как шум, в аудио-данных. Эти факторы становятся ограничивающими для создания высокоэффективных систем ASD. Наша мотивация заключается в развитии более точных методов детекции аномалий, улучшающих точность и надежность таких систем. ## Метод Мы предлагаем усовершенствованный подход к детекции аномалий, основывающийся на использовании метода фильтр-банков с равномерно распределенными интервалами. Этот подход обеспечивает равное внимание к всем частотным диапазонам в аудио-данных, увеличивая чувствительность системы к деталям и значимым звуковым признакам. Для уменьшения ненужной информации, такой как шум, мы предложили параметр-свободный метод усиления признаков, основанный на предварительно обученных моделях. Этот подход позволяет эффективно передавать универсальный знаний из предварительно обученных моделей к задаче детекции звуковых аномалий. Мы также использовали предварительно обученные модели для оптимизации модели детекции звуков в условиях нестандатных условий. ## Результаты Мы провели ряд экспериментов на данных с коллекции DCASE 2024 Challenge, которая включает сцены с машинными звуками и аномалиями. Наш подход продемонстрировал существенное повышение точности детекции аномалий в сравнении с существующими методами. Мы измерили производительность с помощью метрик F1-score и AUC-ROC, получив значительное улучшение по сравнению с конкурирующими решениями. Эти результаты подтверждают эффективность предлагаемого метода в обнаружении аномалий и уменьшении шума в аудио-данных. ## Значимость Наш метод может быть применен в различных отраслях, таких как промышленность, информационные системы, автоматизация и безопасность. Он обладает рядом преимуществ, включая улучшение точности детекции, уменьшение количества шума в аудио-данных, а также увеличение универсальности и надежности моделей. Это может привести к сокращению выбытия на техническом обслуживании, повышению эффективности производственных процессов и улучшению общей безопасности систем. ## Выводы Мы представили эффективный подход к детекции а

Abstract

Anomalous Sound Detection (ASD) aims at identifying anomalous sounds from machines and has gained extensive research interests from both academia and industry. However, the uncertainty of anomaly location and much redundant information such as noise in machine sounds hinder the improvement of ASD system performance. This paper proposes a novel audio feature of filter banks with evenly distributed intervals, ensuring equal attention to all frequency ranges in the audio, which enhances the detection of anomalies in machine sounds. Moreover, based on pre-trained models, this paper presents a parameter-free feature enhancement approach to remove redundant information in machine audio. It is believed that this parameter-free strategy facilitates the effective transfer of universal knowledge from pre-trained tasks to the ASD task during model fine-tuning. Evaluation results on the Detection and Classification of Acoustic Scenes and Events (DCASE) 2024 Challenge dataset demonstrate significant improvements in ASD performance with our proposed methods.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

An Enhanced Audio Feature Tailored for Anomalous Sound Detection Based on Pre-trained Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Fine-tuning Pre-trained Audio Models for COVID-19 Detection: A Technical Report

Transformer Redesign for Late Fusion of Audio-Text Features on Ultra-Low-Power E...

ProGress: Structured Music Generation via Graph Diffusion and Hierarchical Music...

BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decodi...

Transcribing Rhythmic Patterns of the Guitar Track in Polyphonic Music

Навигация