Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework

2508.17336v2 cs.SD, cs.AI 2025-08-29

Авторы:

Yunsik Kim, Yoonyoung Chung

Резюме на русском

## Контекст Современные аккустические системы распознавания речи сталкиваются с значительными вызовами в условиях шума. Одним из эффективных подходов для решения этой проблемы является использование многомодальных алгоритмов, которые объединяют сигналы различных модальностей, таких как традиционные акустические микрофоны и новые технологии, такие как микрофоны тела (body-conduction microphone, BMS). Хотя BMS обеспечивают высокую устойчивость к шумам, они имеют ограниченное диапазон распознавания частот, особенно в высоких частотах. Акустические микрофоны (AMS), в свою очередь, достаточно чувствительны к шумам, но обеспечивают широкий диапазон частот. В этом исследовании предлагается модель, которая комбинирует эти две модальности, стремясь обеспечить как шуморезистентность, так и воспроизведение высоких частот. ## Метод Предлагаемая модель использует два модуля для обработки сигналов: один для BMS и другой для AMS. Модуль BMS работает на основе метода маппинга, который улучшает качество звука, оптимизируя информацию в низких частотах. Модуль AMS, в свою очередь, использует метод маскирования, чтобы удалять шум из сигнала. Эти модули интегрируются в рамках динамического механизма фьюзирования, который анализирует локальные условия шума и адаптируется к ним. Эта адаптивность позволяет оптимально использовать преимущества каждой модальности в зависимости от текущих условий. ## Результаты Исследования проводились на датасете TAPS, дополненном шумовыми клиппами DNS-2023. Объективные метрики, такие как PESQ и STOI, были использованы для оценки качества звука. Результаты показали, что предлагаемая модель обеспечивает значительное улучшение в сравнении с одиночно-модальными решениями в различных условиях шума. Она эффективно воспроизводит высокие частоты, основываясь на AMS, и обеспечивает шуморезистентность, используя BMS. ## Значимость Предлагаемый подход имеет широкие применения в системах распознавания речи, автоматической связи, устройствах для наушников и аудиозаписи. Он предлагает значительные преимущества, такие как высокая устойчивость к шумам, воспроизведение высоких частот и динамическая адаптация к условиям. Эти преимущества могут положительно сказаться на качестве звука и пользовательском опыте в различных сценариях. ## Выводы Результаты исследований подтверждают эффективность подхода в объединении сигналов BMS и AMS для решения проблем шума в акустических системах. Будущие исследования будут направлены на улучшение динамического механизма фью

Abstract

Body-conduction microphone signals (BMS) bypass airborne sound, providing strong noise resistance. However, a complementary modality is required to compensate for the inherent loss of high-frequency information. In this study, we propose a novel multi-modal framework that combines BMS and acoustic microphone signals (AMS) to achieve both noise suppression and high-frequency reconstruction. Unlike conventional multi-modal approaches that simply merge features, our method employs two specialized networks: a mapping-based model to enhance BMS and a masking-based model to denoise AMS. These networks are integrated through a dynamic fusion mechanism that adapts to local noise conditions, ensuring the optimal use of each modality's strengths. We performed evaluations on the TAPS dataset, augmented with DNS-2023 noise clips, using objective speech quality metrics. The results clearly demonstrate that our approach outperforms single-modal solutions in a wide range of noisy environments.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация