📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Learning Robust Spatial Representations from Binaural Audio through Feature Distillation

2025-08-29

Авторы:

Holger Severin Bovbjerg, Jan Østergaard, Jesper Jensen, Shinji Watanabe, Zheng-Hua Tan

## Контекст Улучшение понимания среды через спектро-саунадовая характеристика звука является ключевым аспектом в многих приложениях, таких как локализация источников звука, системы навигации, и искусственное интеллект. Однако, обучение моделей классификации и оценки звуков часто требует больших объемов меток данных, которые могут быть трудозатратными и дорогостоящими в получении. Бинаurale аудио, с его уникальными монокультарными характеристиками, представляет собой сильный потенциал для повышения понимания среды. Тем не менее, многие существующие методы либо не эффективны при использовании суровых условий (например, шумовых или реверберативных средах), либо требуют полностью меток данных. Мы рассматриваем новую методологию, которая использует предварительную тренировку характеристик с помощью фильтрации представлений, чтобы улучшить обучение моделей бинаулярного звука для оценки направления прибытия (DoA) без требования меток данных. ## Метод Мы предлагаем использовать предварительную тренировку модели через фильтрацию представлений с использованием чистых запиков элементов спектро-саунадов, отформатированных как прогнозные метки. Эти чистые элементы формируются из бинаулярных семплов аудио и затем используются для обучения модели, которая предсказывает эти чистые элементы из обучающих данных. Мы используем аугментированные бинаулярные звуковые данные для получения представлений, которые могут быть прогнозированы с помощью нейронной сети. Чтобы повысить жесткость и универсальность представлений, была применена техника предварительной тренировки. После этого, мы удаляем слой предсказателя и используем веса из обученного энкодера для инициализации модели DoA, которая тренируется для оценки направления прибытия. ## Результаты Мы оценивали нашу модель на двух открытых наборах данных: руководственном сеансе VIRTUAL-HEADSET и данных из нынешнего конкурса LOCATA. Мы сравнивали нашу модель с двумя типами моделей: одной, которая была развита с полностью тренированными данными, и другой, которая тренировалась с использованием классических методов сигнальной обработки. Наши результаты показывают, что предварительно тренированная модель показывает улучшенное поведение в ситуациях с шумом и реверберацией, когда мы применяем технику DoA-оценки после тренировки, в сравнении с полностью тренированными моделями и классическими методами. ## Значимость Наше исследование показывает как предварительная тренировка модели через фильтрацию представлений может значительно повысить эффективность обучения моделей для о

Annotation:

Recently, deep representation learning has shown strong performance in multiple audio tasks. However, its use for learning spatial representations from multichannel audio is underexplored. We investigate the use of a pretraining stage based on feature distillation to learn a robust spatial representation of binaural speech without the need for data labels. In this framework, spatial features are computed from clean binaural speech samples to form prediction labels. These clean features are then ...

ID: 2508.20914v1 cs.SD, cs.LG, eess.AS, 68T10, I.2.6

arXiv PDF