Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition

2509.08470v1 eess.AS, cs.AI 2025-09-12
Авторы:

Jing-Tong Tzeng, Carlos Busso, Chi-Chun Lee

Резюме на русском

#### Контекст Speech emotion recognition (SER) является ключевым компонентом для создания эмоционально ориентированных систем связи. Однако его эффективность значительно ухудшается в условиях шума, что ограничивает применение в реальных сценариях. Хотя технологии улучшения речи (SE) могут улучшить сигнал, они часто добавляют шумы и артифакты, которые затрудняют распознавание эмоций. Одним из подходов является multi-task learning (MTL), который позволяет одновременно решать задачи SE и SER. Однако обычные модели с общим корпусом (shared-backbone) сталкиваются с проблемами, такими как зависимость градиентов (gradient interference) и конфликты представлений (representational conflicts), что снижает эффективность обучения. Наша цель — разработать эффективный мультизадачный подход, который улучшит обе задачи в условиях шума. #### Метод Мы предлагаем Sparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT) — расширенный MTL-подход, который применяет фрейм-уровневую технику рутинга экспертов с помощью самостоятельно обучаемых спектро-граммных представлений. Sparse MERIT включает task-specific gating networks, которые динамически выбирают экспертов из общего пула для каждого фрейма. Эта модель эффективна, так как она адаптируется к конкретным задачам и минимизирует ненужные вычислительные ресурсы. Наша архитектура позволяет обучать модели, которые могут лучше работать в шумных условиях, сохраняя высокую точность распознавания эмоций и улучшая качество речи. #### Результаты Мы проверили Sparse MERIT на MSP-Podcast corpus, сравнив его с базовыми моделями. Наши результаты показали, что Sparse MERIT существенно превосходит базовые модели в серьезных условиях шума (например, -5 dB SNR). Он улучшил F1-macro SER на 12.0% по сравнению с SE-preprocessing baseline и на 3.4% по сравнению с MTL baseline. Для SE, Sparse MERIT увеличил SSNR на 28.2% по сравнению с SE baseline и на 20.0% по сравнению с MTL baseline. Эти результаты доказывают, что Sparse MERIT обеспечивает устойчивую и общеприменимую производительность для задач распознавания эмоций и улучшения речи в шумных средах. #### Значимость Sparse MERIT может быть применен в различных сценариях, таких как ассистенты с поддержкой речи, интерактивные системы и системы самообучения. Он обеспечивает более точное распознавание эмоций в условиях шума и повышает качество звука, уменьшая необходимые ресурсы. Наш подход может существенно повлиять на развитие эмоционально ориентированных систем, улучшив их надёжность и удобство использования в различных сферах применения. #### Выводы Мы доказали, что Sparse MERIT эффективно решает проблемы MTL в задачах распознавания эмоций и улучшения речи. Наши исследования показали, что модель обеспечивает высокую точность и устойчивость в шум

Abstract

Speech emotion recognition (SER) plays a critical role in building emotion-aware speech systems, but its performance degrades significantly under noisy conditions. Although speech enhancement (SE) can improve robustness, it often introduces artifacts that obscure emotional cues and adds computational overhead to the pipeline. Multi-task learning (MTL) offers an alternative by jointly optimizing SE and SER tasks. However, conventional shared-backbone models frequently suffer from gradient interference and representational conflicts between tasks. To address these challenges, we propose the Sparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT), a flexible MTL framework that applies frame-wise expert routing over self-supervised speech representations. Sparse MERIT incorporates task-specific gating networks that dynamically select from a shared pool of experts for each frame, enabling parameter-efficient and task-adaptive representation learning. Experiments on the MSP-Podcast corpus show that Sparse MERIT consistently outperforms baseline models on both SER and SE tasks. Under the most challenging condition of -5 dB signal-to-noise ratio (SNR), Sparse MERIT improves SER F1-macro by an average of 12.0% over a baseline relying on a SE pre-processing strategy, and by 3.4% over a naive MTL baseline, with statistical significance on unseen noise conditions. For SE, Sparse MERIT improves segmental SNR (SSNR) by 28.2% over the SE pre-processing baseline and by 20.0% over the naive MTL baseline. These results demonstrate that Sparse MERIT provides robust and generalizable performance for both emotion recognition and enhancement tasks in noisy environments.

Ссылки и действия