Adaptive Knowledge Distillation using a Device-Aware Teacher for Low-Complexity Acoustic Scene Classification

2509.09262v1 cs.SD, cs.AI 2025-09-13

Авторы:

Seung Gyu Jeong, Seong Eun Kim

Резюме на русском

#### Контекст Акцент в данном исследовании ложится на решение двух значимых проблем в области классификации акустических сцен: ограниченную сложность моделей и их устойчивость к различным устройствам. На практике требуется создание моделей, которые будут эффективными с точки зрения вычислительных затрат и достаточно гибкими для работы в разных условиях. Особенно актуальным становится задание, когда модель должна обеспечить высокую точность работы как на знакомых, так и на незнакомых устройствах. Задача становится еще более сложной, если добавить ограничение на сложность модели. Работа адресует эти проблемы, предлагая новую архитектуру, основанную на методе знаний о воспитании, для эффективного классификационного решения. #### Метод Предлагаемая система основывается на методе знаний о воспитание, при котором эффективная модель CP-MobileNet учится от двух специализированных учителей. Основной учитель — PaSST — обучается стандартным кросс-энтропийным потерям. Дополнительный учитель, называемый генерализационным экспертом, обучается с помощью потери Device-Aware Feature Alignment (DAFA). Данная потеря является острой инновацией, которая адаптирована из предыдущих работ и гарантирует улучшение устойчивости модели к различным устройствам. В случае, когда доступны метки устройств на этапе тестирования, модель CP-MobileNet проводит окончательную стадию делифайна. Эта стратегия позволяет эффективно воспользоваться доступными метаданными, чтобы дополнительно улучшить качество классификации. #### Результаты В ходе экспериментов была проведена серия испытаний на развитии наборе данных. Модель сталкивалась с двумя основными целями: достижение высокого уровня точности и устойчивости к разным устройствам. На данных, где доступны метки устройств, модель достигла точности 57.93%, что значительно превосходит официальную базовую модель. Особенно выдающиеся результаты были получены при работе с незнакомыми устройствами, где существенно улучшилась общеупотребительная стратегия классификации. Эти результаты подтверждают эффективность использования знаний о воспитании в задаче классификации акустических сцен с высокой сложностью. #### Значимость Предлагаемый подход имеет широкую область применения, в том числе в системах автоматической классификации акустических сцен на различных устройствах. Одним из основных преимуществ является увеличение устойчивости к разным устройствам без потери точности. Это делает модель применимую в ситуациях, где необходима высокая надежность в различных условиях. Кроме того, подход может быть испо

Abstract

In this technical report, we describe our submission for Task 1, Low-Complexity Device-Robust Acoustic Scene Classification, of the DCASE 2025 Challenge. Our work tackles the dual challenges of strict complexity constraints and robust generalization to both seen and unseen devices, while also leveraging the new rule allowing the use of device labels at test time. Our proposed system is based on a knowledge distillation framework where an efficient CP-MobileNet student learns from a compact, specialized two-teacher ensemble. This ensemble combines a baseline PaSST teacher, trained with standard cross-entropy, and a 'generalization expert' teacher. This expert is trained using our novel Device-Aware Feature Alignment (DAFA) loss, adapted from prior work, which explicitly structures the feature space for device robustness. To capitalize on the availability of test-time device labels, the distilled student model then undergoes a final device-specific fine-tuning stage. Our proposed system achieves a final accuracy of 57.93\% on the development set, demonstrating a significant improvement over the official baseline, particularly on unseen devices.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Adaptive Knowledge Distillation using a Device-Aware Teacher for Low-Complexity Acoustic Scene Classification

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация