Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework
2508.17336v2
cs.SD, cs.AI
2025-08-29
Авторы:
Yunsik Kim, Yoonyoung Chung
Резюме на русском
## Контекст
Современные аккустические системы распознавания речи сталкиваются с значительными вызовами в условиях шума. Одним из эффективных подходов для решения этой проблемы является использование многомодальных алгоритмов, которые объединяют сигналы различных модальностей, таких как традиционные акустические микрофоны и новые технологии, такие как микрофоны тела (body-conduction microphone, BMS). Хотя BMS обеспечивают высокую устойчивость к шумам, они имеют ограниченное диапазон распознавания частот, особенно в высоких частотах. Акустические микрофоны (AMS), в свою очередь, достаточно чувствительны к шумам, но обеспечивают широкий диапазон частот. В этом исследовании предлагается модель, которая комбинирует эти две модальности, стремясь обеспечить как шуморезистентность, так и воспроизведение высоких частот.
## Метод
Предлагаемая модель использует два модуля для обработки сигналов: один для BMS и другой для AMS. Модуль BMS работает на основе метода маппинга, который улучшает качество звука, оптимизируя информацию в низких частотах. Модуль AMS, в свою очередь, использует метод маскирования, чтобы удалять шум из сигнала. Эти модули интегрируются в рамках динамического механизма фьюзирования, который анализирует локальные условия шума и адаптируется к ним. Эта адаптивность позволяет оптимально использовать преимущества каждой модальности в зависимости от текущих условий.
## Результаты
Исследования проводились на датасете TAPS, дополненном шумовыми клиппами DNS-2023. Объективные метрики, такие как PESQ и STOI, были использованы для оценки качества звука. Результаты показали, что предлагаемая модель обеспечивает значительное улучшение в сравнении с одиночно-модальными решениями в различных условиях шума. Она эффективно воспроизводит высокие частоты, основываясь на AMS, и обеспечивает шуморезистентность, используя BMS.
## Значимость
Предлагаемый подход имеет широкие применения в системах распознавания речи, автоматической связи, устройствах для наушников и аудиозаписи. Он предлагает значительные преимущества, такие как высокая устойчивость к шумам, воспроизведение высоких частот и динамическая адаптация к условиям. Эти преимущества могут положительно сказаться на качестве звука и пользовательском опыте в различных сценариях.
## Выводы
Результаты исследований подтверждают эффективность подхода в объединении сигналов BMS и AMS для решения проблем шума в акустических системах. Будущие исследования будут направлены на улучшение динамического механизма фью
Abstract
Body-conduction microphone signals (BMS) bypass airborne sound, providing
strong noise resistance. However, a complementary modality is required to
compensate for the inherent loss of high-frequency information. In this study,
we propose a novel multi-modal framework that combines BMS and acoustic
microphone signals (AMS) to achieve both noise suppression and high-frequency
reconstruction. Unlike conventional multi-modal approaches that simply merge
features, our method employs two specialized networks: a mapping-based model to
enhance BMS and a masking-based model to denoise AMS. These networks are
integrated through a dynamic fusion mechanism that adapts to local noise
conditions, ensuring the optimal use of each modality's strengths. We performed
evaluations on the TAPS dataset, augmented with DNS-2023 noise clips, using
objective speech quality metrics. The results clearly demonstrate that our
approach outperforms single-modal solutions in a wide range of noisy
environments.
Ссылки и действия
Дополнительные ресурсы: