Prototypical Contrastive Learning For Improved Few-Shot Audio Classification
2509.10074v1
cs.SD, cs.LG
2025-09-16
Авторы:
Christos Sgouropoulos, Christos Nikou, Stefanos Vlachos, Vasileios Theiou, Christos Foukanelis, Theodoros Giannakopoulos
Резюме на русском
## Контекст
Few-shot learning представляет собой мощный подход для обучения моделей с ограниченным количеством меткидных данных. Он решает проблемы в ситуациях, где создание больших объемов метокдных данных нецелесообразно или невозможно. Хотя этот подход широко используется в обработке изображений, в области аудиоклассификации он остается недостаточно изученным. Несмотря на это, аудиоданные часто требуют метокдных данных, которые трудно получить в реальной жизни из-за высокой сложности или большого потребления ресурсов. Мы рассматриваем направление, где классический подход к контрастированию потерь применяется в сочетании с методом прототипов для короткого обучения. Это позволяет улучшить удобство обучения и получение более точных результатов для аудиоклассификации в небольших обучающих выборках.
## Метод
Наш метод основывается на контрастировании прототипов, где мы используем аугментированные входные данные для создания более обобщенных представлений. Мы используем SpecAugment для увеличения синтетических данных, что позволяет более гибко обрабатывать входные аудиопотоки. Аугментированные данные обрабатываются с помощью модели самоп paуаттерного внимания, которая интегрирует информацию из разных версий аудиоданных в единый подходный вектор. Для оптимизации метода мы используем ангулярную потерю, которая увеличивает точность в сравнении с традиционным контрастированием. Мы также используем традиционные методы оценки, такие как 5-way, 5-shot и 5-way, 1-shot, для сравнения нашего подхода с другими современными моделями на специальном корпусе MetaAudio.
## Результаты
Мы проводили эксперименты на корпусе MetaAudio, включающем пять подкорпушек с многообразными аудиоданными. Наш метод показал лучшие результаты в сравнении с другими моделями в 5-way, 5-shot сценарии. Мы доказали, что наша модель может более эффективно использовать синтетические данные и аугментацию, чтобы повысить удобство обучения и точность классификации. Особенно хороший результат получен для аудиоданных, которые требуют более гибкого и быстрого обучения, таких как речи, музыка и звуковые сигналы.
## Значимость
Наш подход может применяться в различных областях, где недостаточно данных для обучения, но требуется высокая точность классификации. Например, он может применяться для распознавания речи, мониторинга среды и идентификации звуковых сигналов. Улучшение точности и удобства обучения делает нашу модель применимую в сценариях, где доступ к большим объемам данных ограничен. Это может способствовать развитию систем аудиоанализа в научной и практической сфере.
## Выводы
Мы успешно исследовали влияни
Abstract
Few-shot learning has emerged as a powerful paradigm for training models with
limited labeled data, addressing challenges in scenarios where large-scale
annotation is impractical. While extensive research has been conducted in the
image domain, few-shot learning in audio classification remains relatively
underexplored. In this work, we investigate the effect of integrating
supervised contrastive loss into prototypical few shot training for audio
classification. In detail, we demonstrate that angular loss further improves
the performance compared to the standard contrastive loss. Our method leverages
SpecAugment followed by a self-attention mechanism to encapsulate diverse
information of augmented input versions into one unified embedding. We evaluate
our approach on MetaAudio, a benchmark including five datasets with predefined
splits, standardized preprocessing, and a comprehensive set of few-shot
learning models for comparison. The proposed approach achieves state-of-the-art
performance in a 5-way, 5-shot setting.
Ссылки и действия
Дополнительные ресурсы: