EffiFusion-GAN: Efficient Fusion Generative Adversarial Network for Speech Enhancement

2508.14525v1 cs.SD, cs.AI, eess.AS 2025-08-22
Авторы:

Bin Wen, Tien-Ping Tan

Резюме на русском

#### Контекст Одна из основных проблем в акустических и сигнальных обработках является улучшение качества разговоров в шумных условиях. Эта задача называется сенсингом голоса. Она не только влияет на качество звука, но и приносит комфорт в общении. Несмотря на развитие методов сенсинга, существуют трудности, связанные с высоким потреблением ресурсов, ограниченной мобильностью и недостаточной стабильностью методов. Из этого вытекает необходимость развития эффективных моделей, которые учитывали бы эти задачи. #### Метод EffiFusion-GAN представляет собой генерирующую адверсарную сеть, оптимизированную для высокой эффективности. Основная идея заключается в использовании глубинных разделяющих сверток (Depthwise Separable Convolutions), которые уменьшают весь модели значительно, оставив при этом высокую точность. Для улучшения обработки звуковых признаков в разных масштабах, в модели внедрено многомасштабное блок, которое позволяет сохранять детали звука. Для улучшения стабильности тренировки добавлено усовершенствованное механизм внимания с двойным нормализацией и рефинед резидентным слоем. Также, в модели используется динамическая транспарантность (призрачность) для более лёгкого использования в ресурсозатратных условиях. #### Результаты Исследования проводились на знаменитом VoiceBank+DEMAND датасете. Эффективность EffiFusion-GAN была оценена с помощью метрик PESQ, STOI, и SI-SDR, которые являются стандартными для оценки качества сенсинга голоса. Модель достигла PESQ-скора 3.45, что значительно превосходит другие модели в той же степени параметров. Она также показала лучшие результаты по другим метрикам, являясь самой эффективной в своей классе. #### Значимость Модель EffiFusion-GAN отлично подходит для приложений в смартфонах, автомобильных системах, роботов и даже в ИИ-сервисах. Её легковесная структура и высокая точность делают её идеальным средством для реализации в ресурсозатратных условиях. Благодаря улучшенной модели внимания и динамической транспарантности, модель может иметь значительное влияние на развитие устройств с голосовым вводом, носимых технологий, а также цифровых помощников. #### Выводы Модель EffiFusion-GAN доказала свою эффективность в сенсинге голоса в шумных условиях. Она имеет легковесную архитектуру с высоким качеством результатов. Будущие исследования будут сосредоточены на улучшении модели для работы с другими типами звуковых данных, а также на улучшении её мобильности и гибкости для использования в различных устройствах и приложениях.

Abstract

We introduce EffiFusion-GAN (Efficient Fusion Generative Adversarial Network), a lightweight yet powerful model for speech enhancement. The model integrates depthwise separable convolutions within a multi-scale block to capture diverse acoustic features efficiently. An enhanced attention mechanism with dual normalization and residual refinement further improves training stability and convergence. Additionally, dynamic pruning is applied to reduce model size while maintaining performance, making the framework suitable for resource-constrained environments. Experimental evaluation on the public VoiceBank+DEMAND dataset shows that EffiFusion-GAN achieves a PESQ score of 3.45, outperforming existing models under the same parameter settings.

Ссылки и действия