HarmoniFuse: A Component-Selective and Prompt-Adaptive Framework for Multi-Task Speech Language Modeling
2509.18570v1
eess.AS, cs.CL, cs.SD
2025-09-25
Авторы:
Yuke Si, Runyan Yang, Yingying Gao, Junlan Feng, Chao Deng, Shilei Zhang
Резюме на русском
#### Контекст
Одной из основных тенденций в развитии искусственного интеллекта является развитие универсальных языковых моделей, которые могут обрабатывать различные типы задач в рамках одной архитектуры. Это относится и к специальным моделям, таким как универсальные языковые модели для речи (Speech Language Models, SLM). Однако задачи, такие как автоматическое распознавание речи (ASR) и распознавание эмоций в речи (Speech Emotion Recognition, SER), имеют различные специфики. ASR стремится извлечь значимую информацию из речи, концентрируясь на языковом содержании, в то время как SER включает в себя анализ параллингвистических сигналов, таких как гармония и эмоциональный тон. Эти различия порождают проблемы в традиционных моделях, особенно при ограниченных объемах данных. Наша модель HarmoniFuse была разработана для решения этих проблем, ориентируясь на подход к совместной обработке различных задач распознавания речи.
#### Метод
HarmoniFuse представляет собой современный подход к решению проблемы одновременной обработки различных задач распознавания речи, основанный на компонентном селективе и умении адаптироваться к предметной области. Основные компоненты архитектуры HarmoniFuse:
1. **Gated Speech Encoder** – это модуль, отвечающий за выделение и фильтрацию значимых акустических признаков, относящихся к конкретной задаче. Он способен отдельно обрабатывать признаки, необходимые для ASR и SER.
2. **Prompt-Adaptive Dynamic Fusion Module** – это модуль, который анализирует характеристики задачи и динамически комбинирует преобразовательные слои, чтобы создать оптимальную структуру модели для каждой задачи.
3. **Batch-Interleaved Training Strategy** – это стратегия тренировки, позволяющая использовать разные данные для ASR и SER, не требуя их слияния или объединения в рамках обучения.
#### Результаты
Мы провели эксперименты с различными данными, в том числе датасетом LibriSpeech и IEMOCAP, чтобы проверить эффективность HarmoniFuse. Наша модель показала значительное улучшение как в задачах распознавания речи (ASR), так и в задачах распознавания эмоций в речи (SER). Эти результаты были достигнуты благодаря тому, что HarmoniFuse может эффективно сочетать необходимые для каждой задачи признаки, уменьшая влияние межзадачных интерференций и максимизируя использованные ресурсы.
#### Значимость
HarmoniFuse представляет собой значительный шаг в области мультизадачных моделей для распознавания речи. Он имеет круглосуточное применение в различных сферах, включая здравоохранение, обслуживание клиентов, анализ эмоций в речи и другие. Его основные преимущества заключаются в улучшении точности распознавания, эффективном использовании ресурсов и поддержке различных задач в рамках одной модели. Бу
Abstract
Recent advances in large language models have facilitated the development of
unified speech language models (SLMs) capable of supporting multiple speech
tasks within a shared architecture. However, tasks such as automatic speech
recognition (ASR) and speech emotion recognition (SER) rely on distinct types
of information: ASR primarily depends on linguistic content, whereas SER
requires the integration of both linguistic and paralinguistic cues. Existing
multitask SLMs typically adopt naive parameter sharing or prompt-based
conditioning without explicitly modeling the differences in information
composition required by each task. Such designs risk task interference and
performance degradation, especially under limited data conditions. To address
these limitations, we propose HarmoniFuse, a component-selective and
prompt-adaptive framework for multi-task speech language modeling. HarmoniFuse
is designed to harmonize heterogeneous task demands by selecting and fusing
task-relevant components of speech representations. Specifically, it integrates
a gated speech encoder to extract task-specific acoustic features and a
prompt-adaptive dynamic fusion module to aggregate transformer layers based on
task characteristics. In addition, a batch-interleaved training strategy
enables leveraging separate ASR and SER datasets without requiring joint
annotation. Experimental results demonstrate that HarmoniFuse improves both ASR
and SER performance, offering a scalable and robust solution for multitask
speech understanding under realistic data constraints.
Ссылки и действия
Дополнительные ресурсы: