An Entropy-Guided Curriculum Learning Strategy for Data-Efficient Acoustic Scene Classification under Domain Shift
2509.11168v1
cs.SD, cs.AI
2025-09-17
Авторы:
Peihong Zhang, Yuxuan Liu, Zhixin Li, Rui Sang, Yiqiang Cai, Yizhou Tan, Shengchen Li
Резюме на русском
```## Контекст
Acoustic Scene Classification (ASC) — это задача распознавания сцен в аудиодорожке, например, распознавание местности, шума или других аудиосигналов. Она играет ключевую роль в области звукового мониторинга и анализа. Однако ASC сталкивается с трудностями при обнаружении и распознавании сцен в разных условиях, особенно когда набор данных для обучения ограничен, или когда используются разные устройства для записи аудио.
Это проблема особенно актуальна в рамках DCASE 2024 Challenge Task 1, где необходимо обучить модель на малых объемах данных, записанных на одном устройстве, и затем генерализовать её на данных от других устройств. Такая задача требует от моделей не только классифицировать аудио, но и понимать различные характеристики звука, которые могут отличаться в зависимости от устройства и условий записи.
Чтобы улучшить обучение моделей ASC, в этой работе предлагается использовать стратегию curriculum learning, которая позволяет моделям научиться сначала распознавать простые примеры, а затем переходить к сложным. Эта методика позволяет снизить зависимость от больших объемов данных и улучшить универсальность модели.
```
```## Метод
Метод, предложенный в данной работе, называется Entropy-Guided Curriculum Learning. Он основывается на понятии "всячина" (entropy), которая измеряет неопределенность в оценке устройства, откуда было записано аудио. Для каждого примера обучающей выборки вычисляется Shannon entropy — величина, которая показывает, насколько определено устройство, откуда была записана данная запись.
Когда entropy высока, значит звук мог быть записан на разных устройствах, и модель должна научиться распознавать этот тип звука, независимо от устройства. Когда entropy низкая, значит звук, вероятно, был записан на одном устройстве, и модель должна научиться классифицировать этот конкретный тип.
В этом подходе используется нейронный сетевый классификатор, который вычисляет entropy для каждого примера. Он обучается на отдельном наборе данных, а затем используется для структурирования обучения. В результате curriculum learning позволяет лучше распределить задачи для модели, сосредоточившись вначале на простых примерах, а затем — на сложных.
```
```## Результаты
Для проверки эффективности этого подхода, авторы проводили эксперименты на нескольких базисных моделях для ASC, предложенных в DCASE 2024 Challenge. Эксперименты показали, что при использовании Entropy-Guided Curriculum Learning модели становятся более устойчивы к изменениям в условиях записи и во время генерализации на данных от новых устройств.
Например, когда обучаются модели на данных ограниченного размера, этот подход позволяет повысить точность распознавания в ситуациях, где обучающие примеры записаны на разных устройствах. Также показано, что этот метод эффективен как для улучшения обучения, так и
Abstract
Acoustic Scene Classification (ASC) faces challenges in generalizing across
recording devices, particularly when labeled data is limited. The DCASE 2024
Challenge Task 1 highlights this issue by requiring models to learn from small
labeled subsets recorded on a few devices. These models need to then generalize
to recordings from previously unseen devices under strict complexity
constraints. While techniques such as data augmentation and the use of
pre-trained models are well-established for improving model generalization,
optimizing the training strategy represents a complementary yet less-explored
path that introduces no additional architectural complexity or inference
overhead. Among various training strategies, curriculum learning offers a
promising paradigm by structuring the learning process from easier to harder
examples. In this work, we propose an entropy-guided curriculum learning
strategy to address the domain shift problem in data-efficient ASC.
Specifically, we quantify the uncertainty of device domain predictions for each
training sample by computing the Shannon entropy of the device posterior
probabilities estimated by an auxiliary domain classifier. Using entropy as a
proxy for domain invariance, the curriculum begins with high-entropy samples
and gradually incorporates low-entropy, domain-specific ones to facilitate the
learning of generalizable representations. Experimental results on multiple
DCASE 2024 ASC baselines demonstrate that our strategy effectively mitigates
domain shift, particularly under limited labeled data conditions. Our strategy
is architecture-agnostic and introduces no additional inference cost, making it
easily integrable into existing ASC baselines and offering a practical solution
to domain shift.
Ссылки и действия
Дополнительные ресурсы: