Prototypical Contrastive Learning For Improved Few-Shot Audio Classification

2509.10074v1 cs.SD, cs.LG 2025-09-16

Авторы:

Christos Sgouropoulos, Christos Nikou, Stefanos Vlachos, Vasileios Theiou, Christos Foukanelis, Theodoros Giannakopoulos

Резюме на русском

## Контекст Few-shot learning представляет собой мощный подход для обучения моделей с ограниченным количеством меткидных данных. Он решает проблемы в ситуациях, где создание больших объемов метокдных данных нецелесообразно или невозможно. Хотя этот подход широко используется в обработке изображений, в области аудиоклассификации он остается недостаточно изученным. Несмотря на это, аудиоданные часто требуют метокдных данных, которые трудно получить в реальной жизни из-за высокой сложности или большого потребления ресурсов. Мы рассматриваем направление, где классический подход к контрастированию потерь применяется в сочетании с методом прототипов для короткого обучения. Это позволяет улучшить удобство обучения и получение более точных результатов для аудиоклассификации в небольших обучающих выборках. ## Метод Наш метод основывается на контрастировании прототипов, где мы используем аугментированные входные данные для создания более обобщенных представлений. Мы используем SpecAugment для увеличения синтетических данных, что позволяет более гибко обрабатывать входные аудиопотоки. Аугментированные данные обрабатываются с помощью модели самоп paуаттерного внимания, которая интегрирует информацию из разных версий аудиоданных в единый подходный вектор. Для оптимизации метода мы используем ангулярную потерю, которая увеличивает точность в сравнении с традиционным контрастированием. Мы также используем традиционные методы оценки, такие как 5-way, 5-shot и 5-way, 1-shot, для сравнения нашего подхода с другими современными моделями на специальном корпусе MetaAudio. ## Результаты Мы проводили эксперименты на корпусе MetaAudio, включающем пять подкорпушек с многообразными аудиоданными. Наш метод показал лучшие результаты в сравнении с другими моделями в 5-way, 5-shot сценарии. Мы доказали, что наша модель может более эффективно использовать синтетические данные и аугментацию, чтобы повысить удобство обучения и точность классификации. Особенно хороший результат получен для аудиоданных, которые требуют более гибкого и быстрого обучения, таких как речи, музыка и звуковые сигналы. ## Значимость Наш подход может применяться в различных областях, где недостаточно данных для обучения, но требуется высокая точность классификации. Например, он может применяться для распознавания речи, мониторинга среды и идентификации звуковых сигналов. Улучшение точности и удобства обучения делает нашу модель применимую в сценариях, где доступ к большим объемам данных ограничен. Это может способствовать развитию систем аудиоанализа в научной и практической сфере. ## Выводы Мы успешно исследовали влияни

Abstract

Few-shot learning has emerged as a powerful paradigm for training models with limited labeled data, addressing challenges in scenarios where large-scale annotation is impractical. While extensive research has been conducted in the image domain, few-shot learning in audio classification remains relatively underexplored. In this work, we investigate the effect of integrating supervised contrastive loss into prototypical few shot training for audio classification. In detail, we demonstrate that angular loss further improves the performance compared to the standard contrastive loss. Our method leverages SpecAugment followed by a self-attention mechanism to encapsulate diverse information of augmented input versions into one unified embedding. We evaluate our approach on MetaAudio, a benchmark including five datasets with predefined splits, standardized preprocessing, and a comprehensive set of few-shot learning models for comparison. The proposed approach achieves state-of-the-art performance in a 5-way, 5-shot setting.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Prototypical Contrastive Learning For Improved Few-Shot Audio Classification

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Contract-Driven QoE Auditing for Speech and Singing Services: From MOS Regressio...

Generative Multi-modal Feedback for Singing Voice Synthesis Evaluation

Differentiable Attenuation Filters for Feedback Delay Networks

DHAuDS: A Dynamic and Heterogeneous Audio Benchmark for Test-Time Adaptation

Count The Notes: Histogram-Based Supervision for Automatic Music Transcription

Навигация