Cross-Attention with Confidence Weighting for Multi-Channel Audio Alignment
2509.16926v1
cs.SD, cs.AI, cs.LG, eess.AS
2025-09-24
Авторы:
Ragib Amin Nihal, Benjamin Yen, Takeshi Ashizawa, Kazuhiro Nakadai
Резюме на русском
## Контекст
**Multi-channel audio alignment** является важной задачей в области биоакустического мониторинга, пространственной аудиосистемы и акустической локализации. Однако существующие методы часто сталкиваются с проблемами, такими как **nonlinear clock drift** (нелинейное смещение часов) и невозможность оценивать **uncertainty** (неопределенность). Традиционные методы, такие как **cross-correlation** и **Dynamic Time Warping (DTW)**, предполагают простые шаблоны смещения и не предоставляют меры надежности. Несмотря на то, что **deep learning models** позволяют находить более точные решения, они в основном рассматривают задачу синхронизации как **binary classification task** (задачу бинарной классификации), не учитывая зависимости между каналами и неопределенность решений. Мы предлагаем **Cross-Attention with Confidence Weighting**, метод, который объединяет **cross-attention mechanisms** и **confidence-weighted scoring** для улучшения многоканальной синхронизации аудио. Это решение позволяет улучшить точность и надежность синхронизации в различных критически важных приложениях.
## Метод
Мы расширили **BEATs encoders** (BEATs - Bidirectional Encoder Attention Transformer), добавив **cross-attention layers** для моделирования взаимосвязей между каналами. Эти слои позволяют учитывать характеристики и хронологические зависимости данных. Далее, мы разработали **confidence-weighted scoring function**, которая использует **full prediction distribution** (полное распределение предсказаний) вместо бинарного трешхолда. Эта функция позволяет оценивать **uncertainty** и принимать во внимание все возможные результаты. Наша реализация использует **probabilistic temporal alignment** (пробабилистическую временную синхронизацию), устраняя необходимость в чистом точном решении и предоставляя **confidence scores** (оценки надежности). Эта модель позволяет решать задачи синхронизации в рамках биоакустических приложений, но также может быть применена к другим задачам многоканальной аудиосинхронизации, где надежность и уверенность в результатах критически важны.
## Результаты
Мы проверили нашу модель на различных датасетах, включая **ARU** и **zebra finch**. На **ARU dataset**, наш метод показал **0.14 Mean Squared Error (MSE)**, что составляет **77%** снижения по сравнению с базовым глубокому обучению (**deep learning baseline**), который показал **0.58 MSE**. На датасете **zebra finch** наш результат составил **0.45 MSE**, что составляет **18%** снижения по сравнению с базовым результатом. На **BioDCASE 2025 Task 1 challenge**, наша модель получила **0.30 MSE**, что является **наилучшим результатом** среди участников. Эти результаты демонстрируют высокую точность и надежность нашего подхода в синхронизации многоканального аудио. Мы также продемонстрировали, что наш метод позволяет улучшить **probabilistic temporal alignment**, что делает его применимым в ситуациях, где требуется уверенность в результатах.
## Значимость
Наш метод может применяться в **bioacoustic
Abstract
Multi-channel audio alignment is a key requirement in bioacoustic monitoring,
spatial audio systems, and acoustic localization. However, existing methods
often struggle to address nonlinear clock drift and lack mechanisms for
quantifying uncertainty. Traditional methods like Cross-correlation and Dynamic
Time Warping assume simple drift patterns and provide no reliability measures.
Meanwhile, recent deep learning models typically treat alignment as a binary
classification task, overlooking inter-channel dependencies and uncertainty
estimation. We introduce a method that combines cross-attention mechanisms with
confidence-weighted scoring to improve multi-channel audio synchronization. We
extend BEATs encoders with cross-attention layers to model temporal
relationships between channels. We also develop a confidence-weighted scoring
function that uses the full prediction distribution instead of binary
thresholding. Our method achieved first place in the BioDCASE 2025 Task 1
challenge with 0.30 MSE average across test datasets, compared to 0.58 for the
deep learning baseline. On individual datasets, we achieved 0.14 MSE on ARU
data (77% reduction) and 0.45 MSE on zebra finch data (18% reduction). The
framework supports probabilistic temporal alignment, moving beyond point
estimates. While validated in a bioacoustic context, the approach is applicable
to a broader range of multi-channel audio tasks where alignment confidence is
critical. Code available on: https://github.com/Ragib-Amin-Nihal/BEATsCA