Adaptive Knowledge Distillation using a Device-Aware Teacher for Low-Complexity Acoustic Scene Classification
2509.09262v1
cs.SD, cs.AI
2025-09-13
Авторы:
Seung Gyu Jeong, Seong Eun Kim
Резюме на русском
#### Контекст
Акцент в данном исследовании ложится на решение двух значимых проблем в области классификации акустических сцен: ограниченную сложность моделей и их устойчивость к различным устройствам. На практике требуется создание моделей, которые будут эффективными с точки зрения вычислительных затрат и достаточно гибкими для работы в разных условиях. Особенно актуальным становится задание, когда модель должна обеспечить высокую точность работы как на знакомых, так и на незнакомых устройствах. Задача становится еще более сложной, если добавить ограничение на сложность модели. Работа адресует эти проблемы, предлагая новую архитектуру, основанную на методе знаний о воспитании, для эффективного классификационного решения.
#### Метод
Предлагаемая система основывается на методе знаний о воспитание, при котором эффективная модель CP-MobileNet учится от двух специализированных учителей. Основной учитель — PaSST — обучается стандартным кросс-энтропийным потерям. Дополнительный учитель, называемый генерализационным экспертом, обучается с помощью потери Device-Aware Feature Alignment (DAFA). Данная потеря является острой инновацией, которая адаптирована из предыдущих работ и гарантирует улучшение устойчивости модели к различным устройствам. В случае, когда доступны метки устройств на этапе тестирования, модель CP-MobileNet проводит окончательную стадию делифайна. Эта стратегия позволяет эффективно воспользоваться доступными метаданными, чтобы дополнительно улучшить качество классификации.
#### Результаты
В ходе экспериментов была проведена серия испытаний на развитии наборе данных. Модель сталкивалась с двумя основными целями: достижение высокого уровня точности и устойчивости к разным устройствам. На данных, где доступны метки устройств, модель достигла точности 57.93%, что значительно превосходит официальную базовую модель. Особенно выдающиеся результаты были получены при работе с незнакомыми устройствами, где существенно улучшилась общеупотребительная стратегия классификации. Эти результаты подтверждают эффективность использования знаний о воспитании в задаче классификации акустических сцен с высокой сложностью.
#### Значимость
Предлагаемый подход имеет широкую область применения, в том числе в системах автоматической классификации акустических сцен на различных устройствах. Одним из основных преимуществ является увеличение устойчивости к разным устройствам без потери точности. Это делает модель применимую в ситуациях, где необходима высокая надежность в различных условиях. Кроме того, подход может быть испо
Abstract
In this technical report, we describe our submission for Task 1,
Low-Complexity Device-Robust Acoustic Scene Classification, of the DCASE 2025
Challenge. Our work tackles the dual challenges of strict complexity
constraints and robust generalization to both seen and unseen devices, while
also leveraging the new rule allowing the use of device labels at test time.
Our proposed system is based on a knowledge distillation framework where an
efficient CP-MobileNet student learns from a compact, specialized two-teacher
ensemble. This ensemble combines a baseline PaSST teacher, trained with
standard cross-entropy, and a 'generalization expert' teacher. This expert is
trained using our novel Device-Aware Feature Alignment (DAFA) loss, adapted
from prior work, which explicitly structures the feature space for device
robustness. To capitalize on the availability of test-time device labels, the
distilled student model then undergoes a final device-specific fine-tuning
stage. Our proposed system achieves a final accuracy of 57.93\% on the
development set, demonstrating a significant improvement over the official
baseline, particularly on unseen devices.
Ссылки и действия
Дополнительные ресурсы: