An Entropy-Guided Curriculum Learning Strategy for Data-Efficient Acoustic Scene Classification under Domain Shift

2509.11168v1 cs.SD, cs.AI 2025-09-17

Авторы:

Peihong Zhang, Yuxuan Liu, Zhixin Li, Rui Sang, Yiqiang Cai, Yizhou Tan, Shengchen Li

Резюме на русском

```## Контекст Acoustic Scene Classification (ASC) — это задача распознавания сцен в аудиодорожке, например, распознавание местности, шума или других аудиосигналов. Она играет ключевую роль в области звукового мониторинга и анализа. Однако ASC сталкивается с трудностями при обнаружении и распознавании сцен в разных условиях, особенно когда набор данных для обучения ограничен, или когда используются разные устройства для записи аудио. Это проблема особенно актуальна в рамках DCASE 2024 Challenge Task 1, где необходимо обучить модель на малых объемах данных, записанных на одном устройстве, и затем генерализовать её на данных от других устройств. Такая задача требует от моделей не только классифицировать аудио, но и понимать различные характеристики звука, которые могут отличаться в зависимости от устройства и условий записи. Чтобы улучшить обучение моделей ASC, в этой работе предлагается использовать стратегию curriculum learning, которая позволяет моделям научиться сначала распознавать простые примеры, а затем переходить к сложным. Эта методика позволяет снизить зависимость от больших объемов данных и улучшить универсальность модели. ``` ```## Метод Метод, предложенный в данной работе, называется Entropy-Guided Curriculum Learning. Он основывается на понятии "всячина" (entropy), которая измеряет неопределенность в оценке устройства, откуда было записано аудио. Для каждого примера обучающей выборки вычисляется Shannon entropy — величина, которая показывает, насколько определено устройство, откуда была записана данная запись. Когда entropy высока, значит звук мог быть записан на разных устройствах, и модель должна научиться распознавать этот тип звука, независимо от устройства. Когда entropy низкая, значит звук, вероятно, был записан на одном устройстве, и модель должна научиться классифицировать этот конкретный тип. В этом подходе используется нейронный сетевый классификатор, который вычисляет entropy для каждого примера. Он обучается на отдельном наборе данных, а затем используется для структурирования обучения. В результате curriculum learning позволяет лучше распределить задачи для модели, сосредоточившись вначале на простых примерах, а затем — на сложных. ``` ```## Результаты Для проверки эффективности этого подхода, авторы проводили эксперименты на нескольких базисных моделях для ASC, предложенных в DCASE 2024 Challenge. Эксперименты показали, что при использовании Entropy-Guided Curriculum Learning модели становятся более устойчивы к изменениям в условиях записи и во время генерализации на данных от новых устройств. Например, когда обучаются модели на данных ограниченного размера, этот подход позволяет повысить точность распознавания в ситуациях, где обучающие примеры записаны на разных устройствах. Также показано, что этот метод эффективен как для улучшения обучения, так и

Abstract

Acoustic Scene Classification (ASC) faces challenges in generalizing across recording devices, particularly when labeled data is limited. The DCASE 2024 Challenge Task 1 highlights this issue by requiring models to learn from small labeled subsets recorded on a few devices. These models need to then generalize to recordings from previously unseen devices under strict complexity constraints. While techniques such as data augmentation and the use of pre-trained models are well-established for improving model generalization, optimizing the training strategy represents a complementary yet less-explored path that introduces no additional architectural complexity or inference overhead. Among various training strategies, curriculum learning offers a promising paradigm by structuring the learning process from easier to harder examples. In this work, we propose an entropy-guided curriculum learning strategy to address the domain shift problem in data-efficient ASC. Specifically, we quantify the uncertainty of device domain predictions for each training sample by computing the Shannon entropy of the device posterior probabilities estimated by an auxiliary domain classifier. Using entropy as a proxy for domain invariance, the curriculum begins with high-entropy samples and gradually incorporates low-entropy, domain-specific ones to facilitate the learning of generalizable representations. Experimental results on multiple DCASE 2024 ASC baselines demonstrate that our strategy effectively mitigates domain shift, particularly under limited labeled data conditions. Our strategy is architecture-agnostic and introduces no additional inference cost, making it easily integrable into existing ASC baselines and offering a practical solution to domain shift.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

An Entropy-Guided Curriculum Learning Strategy for Data-Efficient Acoustic Scene Classification under Domain Shift

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация