Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework

2508.17336v1 cs.SD, cs.AI 2025-08-27

Авторы:

Yunsik Kim, Yoonyoung Chung

Резюме на русском

#### Контекст Технологии микрофонов, использующие различные принципы работы, широко применяются в системах улучшения речи в шумных условиях. Однако каждый тип микрофона имеет свои ограничения. Теластрансляционные микрофоны (Body-Conduction Microphones, BMS) очень эффективны в средах с высоким шумом, так как осуществляют прямое передачу звука через кожух человека, избегая шумов атмосферных воздушных колебаний. Однако они страдают от недостатка высокочастотной информации. Обратное верно для акустических микрофонов (Acoustic Microphones, AMS), которые хорошо подходят для низкочастотного диапазона, но терпят избыток шума в средах с высоким шумовым фоном. Эта ситуация требует разработки методов, которые используют преимущества нескольких типов микрофонов, объединяя их в единое решение для лучшего улучшения речи. #### Метод Мы предлагаем модель, которая сочетает в себе два типа микрофонов: BMS и AMS. Для BMS разработана модель на основе маппинга, которая улучшает звук, устраняя шумы и повышая четкость. Для AMS вводится модель на основе маскирования, которая избавляется от шума и восстанавливает высокочастотные компоненты. Наша особенность заключается в динамическом механизме фузирования, который адаптируется к уровню шума в реальном времени. Это позволяет оптимально использовать сильные стороны каждого типа микрофона в разных условиях. Мы использовали данные из датасета TAPS, который был дополнен шумовыми клипами DNS-2023, для эффективного оценивания производительности. #### Результаты Мы провели эксперименты, сравнивая нашу модель с одномодальными решениями для каждого типа микрофона. Оценивались такие метрики как PESQ, STOI и DNSMOS. Результаты показали, что наша модель не только показала лучшие результаты в целом, но и подтвердила свою эффективность в разных условиях шума. Особенно выдающимся был результат в условиях высокого шума, где значительно улучшилась четкость речи и удаление шума по сравнению с одномодальными подходами. #### Значимость Наш подход имеет большое практическое значение для разработки систем улучшения речи в реальных условиях. Он может быть применен в системах телекоммуникаций, устройствах для устранения шума и системах распознавания речи. Особым преимуществом является высокая универсальность и адаптивность к различным условиям среды. Это может способствовать развитию технологий, в которых безопасность и эффективность общения являются ключевыми факторами. #### Выводы Мы доказали, что наш многомодальный подход с высокой точностью и адаптивно

Abstract

Body\-conduction microphone signals (BMS) bypass airborne sound, providing strong noise resistance. However, a complementary modality is required to compensate for the inherent loss of high\-frequency information. In this study, we propose a novel multi\-modal framework that combines BMS and acoustic microphone signals (AMS) to achieve both noise suppression and high\-frequency reconstruction. Unlike conventional multi\-modal approaches that simply merge features, our method employs two specialized networks\: a mapping-based model to enhance BMS and a masking-based model to denoise AMS. These networks are integrated through a dynamic fusion mechanism that adapts to local noise conditions, ensuring the optimal use of each modality's strengths. We performed evaluations on the TAPS dataset, augmented with DNS\-2023 noise clips, using objective speech quality metrics. The results clearly demonstrate that our approach outperforms single\-modal solutions in a wide range of noisy environments.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация