Improving Anomalous Sound Detection with Attribute-aware Representation from Domain-adaptive Pre-training

2509.12845v1 cs.SD, cs.AI 2025-09-18

Авторы:

Xin Fang, Guirui Zhong, Qing Wang, Fan Chu, Lei Wang, Mengui Qian, Mingqi Cai, Jiangzhao Wu, Jianqing Gao, Jun Du

Резюме на русском

## Контекст Аномальное звуковое обнаружение (Anomalous Sound Detection, ASD) широко применяется в различных сферах, включая мониторинг инфраструктурных объектов и систем автоматического контроля. Однако, обучение моделей ASD обычно ограничено доступом только к звуковым данным нормального режима, в то время как метки атрибутов машин (таких как скорость, нагрузка или конфигурация) часто отсутствуют. Это создает серьезную проблему, так как атрибуты звука являются ключевыми для точного обнаружения аномалий. Существующие методы для выработки атрибутированных представлений часто требуют ручного размечения данных, что является трудозавершающим и неэффективным. Этот подход опасен из-за возможности человеческого фактора в ошибочных метках. Наша мотивация заключается в создании метода, который мог бы привести к более эффективному и точному обнаружению аномалий, используя доступные данные. ## Метод Мы предлагаем метод, основанный на агломеративном группировочном кластеризации для атрибутирования представлений, полученных от предобученной модели с доменной адаптацией. Сверточная модель, обученная на данных с доменом адаптации, может эффективно отражать атрибуты машин, такие как рабочие колебания и скорость. На основе этого представления мы строим кластеры, которые соответствуют разным машинным атрибутам. Используя эти кластеры, мы назначаем псевдо-метки атрибутов для обучения модели классификации атрибутов. После этого мы добавляем модели дискретной адаптации, которая работает на основе супервизованного метода тонкой настройки. Этот подход позволяет модели сохранить представление атрибутов, полученное в рамках доменной адаптации, и улучшить точность классификации атрибутов. ## Результаты Мы проверили наш метод на данных Detection and Classification of Acoustic Scenes and Events (DCASE) 2025 Challenge. Наши результаты показали существенные показатели качества, превосходя текущую систему-лидер в задаче аномального звукового обнаружения. Мы сравнили свою модель с предыдущими решениями, включая те, которые использовали ручные метки атрибутов. Наши результаты показали значительные преимущества, особенно в ситуациях, когда доступ к меткам атрибутов ограничен или отсутствует. ## Значимость Наш подход может быть применен в различных областях, таких как промышленное мониторингное оборудование, автоматические системы охраны и мониторинг в реальном времени. Он предоставляет значительные преимущества в ситуациях, когда доступ к меткам атрибутов является ограниченным или дорогостоящим. Этот подход может существенно облегчить процесс обучения моделей ASD, снизив необходимость в ру

Abstract

Anomalous Sound Detection (ASD) is often formulated as a machine attribute classification task, a strategy necessitated by the common scenario where only normal data is available for training. However, the exhaustive collection of machine attribute labels is laborious and impractical. To address the challenge of missing attribute labels, this paper proposes an agglomerative hierarchical clustering method for the assignment of pseudo-attribute labels using representations derived from a domain-adaptive pre-trained model, which are expected to capture machine attribute characteristics. We then apply model adaptation to this pre-trained model through supervised fine-tuning for machine attribute classification, resulting in a new state-of-the-art performance. Evaluation on the Detection and Classification of Acoustic Scenes and Events (DCASE) 2025 Challenge dataset demonstrates that our proposed approach yields significant performance gains, ultimately outperforming our previous top-ranking system in the challenge.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Improving Anomalous Sound Detection with Attribute-aware Representation from Domain-adaptive Pre-training

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация