Cross-Attention with Confidence Weighting for Multi-Channel Audio Alignment

2509.16926v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-09-24
Авторы:

Ragib Amin Nihal, Benjamin Yen, Takeshi Ashizawa, Kazuhiro Nakadai

Резюме на русском

## Контекст **Multi-channel audio alignment** является важной задачей в области биоакустического мониторинга, пространственной аудиосистемы и акустической локализации. Однако существующие методы часто сталкиваются с проблемами, такими как **nonlinear clock drift** (нелинейное смещение часов) и невозможность оценивать **uncertainty** (неопределенность). Традиционные методы, такие как **cross-correlation** и **Dynamic Time Warping (DTW)**, предполагают простые шаблоны смещения и не предоставляют меры надежности. Несмотря на то, что **deep learning models** позволяют находить более точные решения, они в основном рассматривают задачу синхронизации как **binary classification task** (задачу бинарной классификации), не учитывая зависимости между каналами и неопределенность решений. Мы предлагаем **Cross-Attention with Confidence Weighting**, метод, который объединяет **cross-attention mechanisms** и **confidence-weighted scoring** для улучшения многоканальной синхронизации аудио. Это решение позволяет улучшить точность и надежность синхронизации в различных критически важных приложениях. ## Метод Мы расширили **BEATs encoders** (BEATs - Bidirectional Encoder Attention Transformer), добавив **cross-attention layers** для моделирования взаимосвязей между каналами. Эти слои позволяют учитывать характеристики и хронологические зависимости данных. Далее, мы разработали **confidence-weighted scoring function**, которая использует **full prediction distribution** (полное распределение предсказаний) вместо бинарного трешхолда. Эта функция позволяет оценивать **uncertainty** и принимать во внимание все возможные результаты. Наша реализация использует **probabilistic temporal alignment** (пробабилистическую временную синхронизацию), устраняя необходимость в чистом точном решении и предоставляя **confidence scores** (оценки надежности). Эта модель позволяет решать задачи синхронизации в рамках биоакустических приложений, но также может быть применена к другим задачам многоканальной аудиосинхронизации, где надежность и уверенность в результатах критически важны. ## Результаты Мы проверили нашу модель на различных датасетах, включая **ARU** и **zebra finch**. На **ARU dataset**, наш метод показал **0.14 Mean Squared Error (MSE)**, что составляет **77%** снижения по сравнению с базовым глубокому обучению (**deep learning baseline**), который показал **0.58 MSE**. На датасете **zebra finch** наш результат составил **0.45 MSE**, что составляет **18%** снижения по сравнению с базовым результатом. На **BioDCASE 2025 Task 1 challenge**, наша модель получила **0.30 MSE**, что является **наилучшим результатом** среди участников. Эти результаты демонстрируют высокую точность и надежность нашего подхода в синхронизации многоканального аудио. Мы также продемонстрировали, что наш метод позволяет улучшить **probabilistic temporal alignment**, что делает его применимым в ситуациях, где требуется уверенность в результатах. ## Значимость Наш метод может применяться в **bioacoustic

Abstract

Multi-channel audio alignment is a key requirement in bioacoustic monitoring, spatial audio systems, and acoustic localization. However, existing methods often struggle to address nonlinear clock drift and lack mechanisms for quantifying uncertainty. Traditional methods like Cross-correlation and Dynamic Time Warping assume simple drift patterns and provide no reliability measures. Meanwhile, recent deep learning models typically treat alignment as a binary classification task, overlooking inter-channel dependencies and uncertainty estimation. We introduce a method that combines cross-attention mechanisms with confidence-weighted scoring to improve multi-channel audio synchronization. We extend BEATs encoders with cross-attention layers to model temporal relationships between channels. We also develop a confidence-weighted scoring function that uses the full prediction distribution instead of binary thresholding. Our method achieved first place in the BioDCASE 2025 Task 1 challenge with 0.30 MSE average across test datasets, compared to 0.58 for the deep learning baseline. On individual datasets, we achieved 0.14 MSE on ARU data (77% reduction) and 0.45 MSE on zebra finch data (18% reduction). The framework supports probabilistic temporal alignment, moving beyond point estimates. While validated in a bioacoustic context, the approach is applicable to a broader range of multi-channel audio tasks where alignment confidence is critical. Code available on: https://github.com/Ragib-Amin-Nihal/BEATsCA

Ссылки и действия