HarmoniFuse: A Component-Selective and Prompt-Adaptive Framework for Multi-Task Speech Language Modeling

2509.18570v1 eess.AS, cs.CL, cs.SD 2025-09-25
Авторы:

Yuke Si, Runyan Yang, Yingying Gao, Junlan Feng, Chao Deng, Shilei Zhang

Резюме на русском

#### Контекст Одной из основных тенденций в развитии искусственного интеллекта является развитие универсальных языковых моделей, которые могут обрабатывать различные типы задач в рамках одной архитектуры. Это относится и к специальным моделям, таким как универсальные языковые модели для речи (Speech Language Models, SLM). Однако задачи, такие как автоматическое распознавание речи (ASR) и распознавание эмоций в речи (Speech Emotion Recognition, SER), имеют различные специфики. ASR стремится извлечь значимую информацию из речи, концентрируясь на языковом содержании, в то время как SER включает в себя анализ параллингвистических сигналов, таких как гармония и эмоциональный тон. Эти различия порождают проблемы в традиционных моделях, особенно при ограниченных объемах данных. Наша модель HarmoniFuse была разработана для решения этих проблем, ориентируясь на подход к совместной обработке различных задач распознавания речи. #### Метод HarmoniFuse представляет собой современный подход к решению проблемы одновременной обработки различных задач распознавания речи, основанный на компонентном селективе и умении адаптироваться к предметной области. Основные компоненты архитектуры HarmoniFuse: 1. **Gated Speech Encoder** – это модуль, отвечающий за выделение и фильтрацию значимых акустических признаков, относящихся к конкретной задаче. Он способен отдельно обрабатывать признаки, необходимые для ASR и SER. 2. **Prompt-Adaptive Dynamic Fusion Module** – это модуль, который анализирует характеристики задачи и динамически комбинирует преобразовательные слои, чтобы создать оптимальную структуру модели для каждой задачи. 3. **Batch-Interleaved Training Strategy** – это стратегия тренировки, позволяющая использовать разные данные для ASR и SER, не требуя их слияния или объединения в рамках обучения. #### Результаты Мы провели эксперименты с различными данными, в том числе датасетом LibriSpeech и IEMOCAP, чтобы проверить эффективность HarmoniFuse. Наша модель показала значительное улучшение как в задачах распознавания речи (ASR), так и в задачах распознавания эмоций в речи (SER). Эти результаты были достигнуты благодаря тому, что HarmoniFuse может эффективно сочетать необходимые для каждой задачи признаки, уменьшая влияние межзадачных интерференций и максимизируя использованные ресурсы. #### Значимость HarmoniFuse представляет собой значительный шаг в области мультизадачных моделей для распознавания речи. Он имеет круглосуточное применение в различных сферах, включая здравоохранение, обслуживание клиентов, анализ эмоций в речи и другие. Его основные преимущества заключаются в улучшении точности распознавания, эффективном использовании ресурсов и поддержке различных задач в рамках одной модели. Бу

Abstract

Recent advances in large language models have facilitated the development of unified speech language models (SLMs) capable of supporting multiple speech tasks within a shared architecture. However, tasks such as automatic speech recognition (ASR) and speech emotion recognition (SER) rely on distinct types of information: ASR primarily depends on linguistic content, whereas SER requires the integration of both linguistic and paralinguistic cues. Existing multitask SLMs typically adopt naive parameter sharing or prompt-based conditioning without explicitly modeling the differences in information composition required by each task. Such designs risk task interference and performance degradation, especially under limited data conditions. To address these limitations, we propose HarmoniFuse, a component-selective and prompt-adaptive framework for multi-task speech language modeling. HarmoniFuse is designed to harmonize heterogeneous task demands by selecting and fusing task-relevant components of speech representations. Specifically, it integrates a gated speech encoder to extract task-specific acoustic features and a prompt-adaptive dynamic fusion module to aggregate transformer layers based on task characteristics. In addition, a batch-interleaved training strategy enables leveraging separate ASR and SER datasets without requiring joint annotation. Experimental results demonstrate that HarmoniFuse improves both ASR and SER performance, offering a scalable and robust solution for multitask speech understanding under realistic data constraints.

Ссылки и действия