EffiFusion-GAN: Efficient Fusion Generative Adversarial Network for Speech Enhancement
2508.14525v1
cs.SD, cs.AI, eess.AS
2025-08-22
Авторы:
Bin Wen, Tien-Ping Tan
Резюме на русском
#### Контекст
Одна из основных проблем в акустических и сигнальных обработках является улучшение качества разговоров в шумных условиях. Эта задача называется сенсингом голоса. Она не только влияет на качество звука, но и приносит комфорт в общении. Несмотря на развитие методов сенсинга, существуют трудности, связанные с высоким потреблением ресурсов, ограниченной мобильностью и недостаточной стабильностью методов. Из этого вытекает необходимость развития эффективных моделей, которые учитывали бы эти задачи.
#### Метод
EffiFusion-GAN представляет собой генерирующую адверсарную сеть, оптимизированную для высокой эффективности. Основная идея заключается в использовании глубинных разделяющих сверток (Depthwise Separable Convolutions), которые уменьшают весь модели значительно, оставив при этом высокую точность. Для улучшения обработки звуковых признаков в разных масштабах, в модели внедрено многомасштабное блок, которое позволяет сохранять детали звука. Для улучшения стабильности тренировки добавлено усовершенствованное механизм внимания с двойным нормализацией и рефинед резидентным слоем. Также, в модели используется динамическая транспарантность (призрачность) для более лёгкого использования в ресурсозатратных условиях.
#### Результаты
Исследования проводились на знаменитом VoiceBank+DEMAND датасете. Эффективность EffiFusion-GAN была оценена с помощью метрик PESQ, STOI, и SI-SDR, которые являются стандартными для оценки качества сенсинга голоса. Модель достигла PESQ-скора 3.45, что значительно превосходит другие модели в той же степени параметров. Она также показала лучшие результаты по другим метрикам, являясь самой эффективной в своей классе.
#### Значимость
Модель EffiFusion-GAN отлично подходит для приложений в смартфонах, автомобильных системах, роботов и даже в ИИ-сервисах. Её легковесная структура и высокая точность делают её идеальным средством для реализации в ресурсозатратных условиях. Благодаря улучшенной модели внимания и динамической транспарантности, модель может иметь значительное влияние на развитие устройств с голосовым вводом, носимых технологий, а также цифровых помощников.
#### Выводы
Модель EffiFusion-GAN доказала свою эффективность в сенсинге голоса в шумных условиях. Она имеет легковесную архитектуру с высоким качеством результатов. Будущие исследования будут сосредоточены на улучшении модели для работы с другими типами звуковых данных, а также на улучшении её мобильности и гибкости для использования в различных устройствах и приложениях.
Abstract
We introduce EffiFusion-GAN (Efficient Fusion Generative Adversarial
Network), a lightweight yet powerful model for speech enhancement. The model
integrates depthwise separable convolutions within a multi-scale block to
capture diverse acoustic features efficiently. An enhanced attention mechanism
with dual normalization and residual refinement further improves training
stability and convergence. Additionally, dynamic pruning is applied to reduce
model size while maintaining performance, making the framework suitable for
resource-constrained environments. Experimental evaluation on the public
VoiceBank+DEMAND dataset shows that EffiFusion-GAN achieves a PESQ score of
3.45, outperforming existing models under the same parameter settings.
Ссылки и действия
Дополнительные ресурсы: