Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition
2509.08470v1
eess.AS, cs.AI
2025-09-12
Авторы:
Jing-Tong Tzeng, Carlos Busso, Chi-Chun Lee
Резюме на русском
#### Контекст
Speech emotion recognition (SER) является ключевым компонентом для создания эмоционально ориентированных систем связи. Однако его эффективность значительно ухудшается в условиях шума, что ограничивает применение в реальных сценариях. Хотя технологии улучшения речи (SE) могут улучшить сигнал, они часто добавляют шумы и артифакты, которые затрудняют распознавание эмоций. Одним из подходов является multi-task learning (MTL), который позволяет одновременно решать задачи SE и SER. Однако обычные модели с общим корпусом (shared-backbone) сталкиваются с проблемами, такими как зависимость градиентов (gradient interference) и конфликты представлений (representational conflicts), что снижает эффективность обучения. Наша цель — разработать эффективный мультизадачный подход, который улучшит обе задачи в условиях шума.
#### Метод
Мы предлагаем Sparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT) — расширенный MTL-подход, который применяет фрейм-уровневую технику рутинга экспертов с помощью самостоятельно обучаемых спектро-граммных представлений. Sparse MERIT включает task-specific gating networks, которые динамически выбирают экспертов из общего пула для каждого фрейма. Эта модель эффективна, так как она адаптируется к конкретным задачам и минимизирует ненужные вычислительные ресурсы. Наша архитектура позволяет обучать модели, которые могут лучше работать в шумных условиях, сохраняя высокую точность распознавания эмоций и улучшая качество речи.
#### Результаты
Мы проверили Sparse MERIT на MSP-Podcast corpus, сравнив его с базовыми моделями. Наши результаты показали, что Sparse MERIT существенно превосходит базовые модели в серьезных условиях шума (например, -5 dB SNR). Он улучшил F1-macro SER на 12.0% по сравнению с SE-preprocessing baseline и на 3.4% по сравнению с MTL baseline. Для SE, Sparse MERIT увеличил SSNR на 28.2% по сравнению с SE baseline и на 20.0% по сравнению с MTL baseline. Эти результаты доказывают, что Sparse MERIT обеспечивает устойчивую и общеприменимую производительность для задач распознавания эмоций и улучшения речи в шумных средах.
#### Значимость
Sparse MERIT может быть применен в различных сценариях, таких как ассистенты с поддержкой речи, интерактивные системы и системы самообучения. Он обеспечивает более точное распознавание эмоций в условиях шума и повышает качество звука, уменьшая необходимые ресурсы. Наш подход может существенно повлиять на развитие эмоционально ориентированных систем, улучшив их надёжность и удобство использования в различных сферах применения.
#### Выводы
Мы доказали, что Sparse MERIT эффективно решает проблемы MTL в задачах распознавания эмоций и улучшения речи. Наши исследования показали, что модель обеспечивает высокую точность и устойчивость в шум
Abstract
Speech emotion recognition (SER) plays a critical role in building
emotion-aware speech systems, but its performance degrades significantly under
noisy conditions. Although speech enhancement (SE) can improve robustness, it
often introduces artifacts that obscure emotional cues and adds computational
overhead to the pipeline. Multi-task learning (MTL) offers an alternative by
jointly optimizing SE and SER tasks. However, conventional shared-backbone
models frequently suffer from gradient interference and representational
conflicts between tasks. To address these challenges, we propose the Sparse
Mixture-of-Experts Representation Integration Technique (Sparse MERIT), a
flexible MTL framework that applies frame-wise expert routing over
self-supervised speech representations. Sparse MERIT incorporates task-specific
gating networks that dynamically select from a shared pool of experts for each
frame, enabling parameter-efficient and task-adaptive representation learning.
Experiments on the MSP-Podcast corpus show that Sparse MERIT consistently
outperforms baseline models on both SER and SE tasks. Under the most
challenging condition of -5 dB signal-to-noise ratio (SNR), Sparse MERIT
improves SER F1-macro by an average of 12.0% over a baseline relying on a SE
pre-processing strategy, and by 3.4% over a naive MTL baseline, with
statistical significance on unseen noise conditions. For SE, Sparse MERIT
improves segmental SNR (SSNR) by 28.2% over the SE pre-processing baseline and
by 20.0% over the naive MTL baseline. These results demonstrate that Sparse
MERIT provides robust and generalizable performance for both emotion
recognition and enhancement tasks in noisy environments.
Ссылки и действия
Дополнительные ресурсы: