Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework
2508.17336v1
cs.SD, cs.AI
2025-08-27
Авторы:
Yunsik Kim, Yoonyoung Chung
Резюме на русском
#### Контекст
Технологии микрофонов, использующие различные принципы работы, широко применяются в системах улучшения речи в шумных условиях. Однако каждый тип микрофона имеет свои ограничения. Теластрансляционные микрофоны (Body-Conduction Microphones, BMS) очень эффективны в средах с высоким шумом, так как осуществляют прямое передачу звука через кожух человека, избегая шумов атмосферных воздушных колебаний. Однако они страдают от недостатка высокочастотной информации. Обратное верно для акустических микрофонов (Acoustic Microphones, AMS), которые хорошо подходят для низкочастотного диапазона, но терпят избыток шума в средах с высоким шумовым фоном. Эта ситуация требует разработки методов, которые используют преимущества нескольких типов микрофонов, объединяя их в единое решение для лучшего улучшения речи.
#### Метод
Мы предлагаем модель, которая сочетает в себе два типа микрофонов: BMS и AMS. Для BMS разработана модель на основе маппинга, которая улучшает звук, устраняя шумы и повышая четкость. Для AMS вводится модель на основе маскирования, которая избавляется от шума и восстанавливает высокочастотные компоненты. Наша особенность заключается в динамическом механизме фузирования, который адаптируется к уровню шума в реальном времени. Это позволяет оптимально использовать сильные стороны каждого типа микрофона в разных условиях. Мы использовали данные из датасета TAPS, который был дополнен шумовыми клипами DNS-2023, для эффективного оценивания производительности.
#### Результаты
Мы провели эксперименты, сравнивая нашу модель с одномодальными решениями для каждого типа микрофона. Оценивались такие метрики как PESQ, STOI и DNSMOS. Результаты показали, что наша модель не только показала лучшие результаты в целом, но и подтвердила свою эффективность в разных условиях шума. Особенно выдающимся был результат в условиях высокого шума, где значительно улучшилась четкость речи и удаление шума по сравнению с одномодальными подходами.
#### Значимость
Наш подход имеет большое практическое значение для разработки систем улучшения речи в реальных условиях. Он может быть применен в системах телекоммуникаций, устройствах для устранения шума и системах распознавания речи. Особым преимуществом является высокая универсальность и адаптивность к различным условиям среды. Это может способствовать развитию технологий, в которых безопасность и эффективность общения являются ключевыми факторами.
#### Выводы
Мы доказали, что наш многомодальный подход с высокой точностью и адаптивно
Abstract
Body\-conduction microphone signals (BMS) bypass airborne sound, providing
strong noise resistance. However, a complementary modality is required to
compensate for the inherent loss of high\-frequency information. In this study,
we propose a novel multi\-modal framework that combines BMS and acoustic
microphone signals (AMS) to achieve both noise suppression and high\-frequency
reconstruction. Unlike conventional multi\-modal approaches that simply merge
features, our method employs two specialized networks\: a mapping-based model
to enhance BMS and a masking-based model to denoise AMS. These networks are
integrated through a dynamic fusion mechanism that adapts to local noise
conditions, ensuring the optimal use of each modality's strengths. We performed
evaluations on the TAPS dataset, augmented with DNS\-2023 noise clips, using
objective speech quality metrics. The results clearly demonstrate that our
approach outperforms single\-modal solutions in a wide range of noisy
environments.
Ссылки и действия
Дополнительные ресурсы: