Learning Robust Spatial Representations from Binaural Audio through Feature Distillation

2508.20914v1 cs.SD, cs.LG, eess.AS, 68T10, I.2.6 2025-08-29
Авторы:

Holger Severin Bovbjerg, Jan Østergaard, Jesper Jensen, Shinji Watanabe, Zheng-Hua Tan

Резюме на русском

## Контекст Улучшение понимания среды через спектро-саунадовая характеристика звука является ключевым аспектом в многих приложениях, таких как локализация источников звука, системы навигации, и искусственное интеллект. Однако, обучение моделей классификации и оценки звуков часто требует больших объемов меток данных, которые могут быть трудозатратными и дорогостоящими в получении. Бинаurale аудио, с его уникальными монокультарными характеристиками, представляет собой сильный потенциал для повышения понимания среды. Тем не менее, многие существующие методы либо не эффективны при использовании суровых условий (например, шумовых или реверберативных средах), либо требуют полностью меток данных. Мы рассматриваем новую методологию, которая использует предварительную тренировку характеристик с помощью фильтрации представлений, чтобы улучшить обучение моделей бинаулярного звука для оценки направления прибытия (DoA) без требования меток данных. ## Метод Мы предлагаем использовать предварительную тренировку модели через фильтрацию представлений с использованием чистых запиков элементов спектро-саунадов, отформатированных как прогнозные метки. Эти чистые элементы формируются из бинаулярных семплов аудио и затем используются для обучения модели, которая предсказывает эти чистые элементы из обучающих данных. Мы используем аугментированные бинаулярные звуковые данные для получения представлений, которые могут быть прогнозированы с помощью нейронной сети. Чтобы повысить жесткость и универсальность представлений, была применена техника предварительной тренировки. После этого, мы удаляем слой предсказателя и используем веса из обученного энкодера для инициализации модели DoA, которая тренируется для оценки направления прибытия. ## Результаты Мы оценивали нашу модель на двух открытых наборах данных: руководственном сеансе VIRTUAL-HEADSET и данных из нынешнего конкурса LOCATA. Мы сравнивали нашу модель с двумя типами моделей: одной, которая была развита с полностью тренированными данными, и другой, которая тренировалась с использованием классических методов сигнальной обработки. Наши результаты показывают, что предварительно тренированная модель показывает улучшенное поведение в ситуациях с шумом и реверберацией, когда мы применяем технику DoA-оценки после тренировки, в сравнении с полностью тренированными моделями и классическими методами. ## Значимость Наше исследование показывает как предварительная тренировка модели через фильтрацию представлений может значительно повысить эффективность обучения моделей для о

Abstract

Recently, deep representation learning has shown strong performance in multiple audio tasks. However, its use for learning spatial representations from multichannel audio is underexplored. We investigate the use of a pretraining stage based on feature distillation to learn a robust spatial representation of binaural speech without the need for data labels. In this framework, spatial features are computed from clean binaural speech samples to form prediction labels. These clean features are then predicted from corresponding augmented speech using a neural network. After pretraining, we throw away the spatial feature predictor and use the learned encoder weights to initialize a DoA estimation model which we fine-tune for DoA estimation. Our experiments demonstrate that the pretrained models show improved performance in noisy and reverberant environments after fine-tuning for direction-of-arrival estimation, when compared to fully supervised models and classic signal processing methods.

Ссылки и действия