Contrastive Learning with Spectrum Information Augmentation in Abnormal Sound Detection

2509.15570v1 cs.SD, cs.AI, eess.AS 2025-09-23

Авторы:

Xinxin Meng, Jiangtao Guo, Yunxiang Zhang, Shun Huang

Резюме на русском

## Контекст Аномальный звуковой детектор (abnormal sound detection, ASD) является важной задачей в области звукового мониторинга и анализа. Он применяется для обнаружения неисправностей в машинных системах, а также для мониторинга звукового окружения. Однако существуют значительные вызовы, связанные с нехваткой меток и малоизвестными особенностями аномалий. Большинство существующих подходов ориентированы на обнаружение аномалий в низких частотах, что может ограничивать их точность и общую эффективность. Наша мотивация заключается в том, чтобы развить более устойчивый подход к обнаружению аномалий, используя аугментацию данных на основе частотного пространства. ## Метод Мы предлагаем метод аугментации данных на основе частотного пространства в контрастивном обучении (contrastive learning). Этот метод заключается в том, чтобы увеличить внимание модели к низким частотным компонентам аудио, которые отражают нормальное рабочее режим machine. Мы используем трансформацию частотного пространства для генерирования дополнительных данных, которые выделяют низкие частоты. Эти данные добавляются к исходным данным в процессе обучения модели, чтобы улучшить ее уязвимость к нормальному режиму работы. Метод базируется на методологии outlier exposure, которая используется для обучения модели к распределению нормальных данных. ## Результаты Мы проверили нашу модель на двух датасетах: DCASE 2020 Task 2 и DCASE 2022 Task 2. На DCASE 2020 Task 2 наш метод показал значительное улучшение в отношении существующих методов контрастивного обучения, повысив точность обнаружения аномалий. На DCASE 2022 Task 2 датасете мы также продемонстрировали устойчивость нашего подхода, получив высокие результаты в обнаружении аномалий в новых условиях. Эти результаты подтверждают эффективность нашего метода в обнаружении аномалий, даже в условиях ограниченной доступности меток. ## Значимость Наш подход имеет значительное значение в области аномального звукового детектирования. Он может применяться в техническом мониторинге, здравоохранении, безопасности и других областях, где аномалии могут привести к серьезным последствиям. Наш метод позволяет улучшить точность обнаружения, уменьшая зависимость от меток. Это делает его привлекательным для решения задач, где доступ к метокам ограничен. В будущем мы планируем расширить применение нашего подхода к другим типам аудиоданных и изучить его потенциал в реальном времени. ## Выводы Мы предложили новую методику для обнаружения аномалий, основанную на контрастивном обучении с аугментацией частотного пространства. Этот подход отличается увеличенной чувствительностью

Abstract

The outlier exposure method is an effective approach to address the unsupervised anomaly sound detection problem. The key focus of this method is how to make the model learn the distribution space of normal data. Based on biological perception and data analysis, it is found that anomalous audio and noise often have higher frequencies. Therefore, we propose a data augmentation method for high-frequency information in contrastive learning. This enables the model to pay more attention to the low-frequency information of the audio, which represents the normal operational mode of the machine. We evaluated the proposed method on the DCASE 2020 Task 2. The results showed that our method outperformed other contrastive learning methods used on this dataset. We also evaluated the generalizability of our method on the DCASE 2022 Task 2 dataset.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Contrastive Learning with Spectrum Information Augmentation in Abnormal Sound Detection

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup an...

Multidimensional Music Aesthetic Evaluation via Semantically Consistent C-Mixup ...

Aligning Generative Music AI with Human Preferences: Methods and Challenges

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Featu...

Навигация