Contrastive Learning with Spectrum Information Augmentation in Abnormal Sound Detection
2509.15570v1
cs.SD, cs.AI, eess.AS
2025-09-23
Авторы:
Xinxin Meng, Jiangtao Guo, Yunxiang Zhang, Shun Huang
Резюме на русском
## Контекст
Аномальный звуковой детектор (abnormal sound detection, ASD) является важной задачей в области звукового мониторинга и анализа. Он применяется для обнаружения неисправностей в машинных системах, а также для мониторинга звукового окружения. Однако существуют значительные вызовы, связанные с нехваткой меток и малоизвестными особенностями аномалий. Большинство существующих подходов ориентированы на обнаружение аномалий в низких частотах, что может ограничивать их точность и общую эффективность. Наша мотивация заключается в том, чтобы развить более устойчивый подход к обнаружению аномалий, используя аугментацию данных на основе частотного пространства.
## Метод
Мы предлагаем метод аугментации данных на основе частотного пространства в контрастивном обучении (contrastive learning). Этот метод заключается в том, чтобы увеличить внимание модели к низким частотным компонентам аудио, которые отражают нормальное рабочее режим machine. Мы используем трансформацию частотного пространства для генерирования дополнительных данных, которые выделяют низкие частоты. Эти данные добавляются к исходным данным в процессе обучения модели, чтобы улучшить ее уязвимость к нормальному режиму работы. Метод базируется на методологии outlier exposure, которая используется для обучения модели к распределению нормальных данных.
## Результаты
Мы проверили нашу модель на двух датасетах: DCASE 2020 Task 2 и DCASE 2022 Task 2. На DCASE 2020 Task 2 наш метод показал значительное улучшение в отношении существующих методов контрастивного обучения, повысив точность обнаружения аномалий. На DCASE 2022 Task 2 датасете мы также продемонстрировали устойчивость нашего подхода, получив высокие результаты в обнаружении аномалий в новых условиях. Эти результаты подтверждают эффективность нашего метода в обнаружении аномалий, даже в условиях ограниченной доступности меток.
## Значимость
Наш подход имеет значительное значение в области аномального звукового детектирования. Он может применяться в техническом мониторинге, здравоохранении, безопасности и других областях, где аномалии могут привести к серьезным последствиям. Наш метод позволяет улучшить точность обнаружения, уменьшая зависимость от меток. Это делает его привлекательным для решения задач, где доступ к метокам ограничен. В будущем мы планируем расширить применение нашего подхода к другим типам аудиоданных и изучить его потенциал в реальном времени.
## Выводы
Мы предложили новую методику для обнаружения аномалий, основанную на контрастивном обучении с аугментацией частотного пространства. Этот подход отличается увеличенной чувствительностью
Abstract
The outlier exposure method is an effective approach to address the
unsupervised anomaly sound detection problem. The key focus of this method is
how to make the model learn the distribution space of normal data. Based on
biological perception and data analysis, it is found that anomalous audio and
noise often have higher frequencies. Therefore, we propose a data augmentation
method for high-frequency information in contrastive learning. This enables the
model to pay more attention to the low-frequency information of the audio,
which represents the normal operational mode of the machine. We evaluated the
proposed method on the DCASE 2020 Task 2. The results showed that our method
outperformed other contrastive learning methods used on this dataset. We also
evaluated the generalizability of our method on the DCASE 2022 Task 2 dataset.
Ссылки и действия
Дополнительные ресурсы: