Dual Information Speech Language Models for Emotional Conversations

2508.08095v1 cs.CL, cs.AI, cs.SD, eess.AS 2025-08-13

Авторы:

Chun Wang, Chenyang Liu, Wenze Xu, Weihong Deng

Резюме на русском

## Контекст Говорящие системы, основанные на текстовых больших лингвистических моделях (LLMs), часто пропускают паралингвистические сигналы, которые играют ключевую роль в понимании эмоций и намерений. Для решения этой проблемы появились модели речи-языка (SLMs), которые используют записи речи в качестве входных данных. Однако существующие SLMs, разработанные на основе замороженных LLMs, сталкиваются с ограниченным пониманием контекста и неэффективным извлечением паралингвистических сигналов. Основные проблемы включают конфузированность информации и неудачные стратегии обучения. Модели, которые не могут эффективно различать лингвистическую и паралингвистическую информацию, не могут предоставить богатый контекст для понимания эмоций и намерений. Наша цель — создать модель, которая избавится от этих проблем и позволит SLM эффективно интегрировать обе сферы информации в контексте диалога. ## Метод Мы предлагаем двухадаптеровую модель, которая разделяет паралингвистическую и лингвистическую информацию на отдельных уровнях. Одна адаптера отвечает за паралингвистические сигналы (например, тональность, интонация), а другая — за лингвистические (семантику и лексику). Мы также предлагаем непрерывное слабо направленное обучение, которое позволяет модели учиться сохранять контекст, не забывая о паралингвистических сигналах. Модель обучается на существующих общих данных, используя только адаптеры для изменения представлений слов, что делает ее эффективной в плане параметров и используемых данных. За основу этой модели мы берем уже существующие LLM, но изменяем его поведение через адаптивные слои, которые обрабатывают паралингвистическую информацию раздельно от лингвистической. ## Результаты Мы проверили нашу модель на задачах распознавания эмоций в разговорах. Для обучения использовались данные, содержащие как текстовую, так и аудио-информацию. Наши эксперименты показали, что модель Dual Information Speech Language Model (DISLM) превосходит существующие SLM-модели по метрикам, таким как F1-score и accuracy. Дискурсные сигналы, такие как звучание, тональность и интонация, были эффективно интегрированы в лингвистическую модель, что повлияло на качество понимания эмоций. Модель также показала высокую точность в задачах классификации эмоций и демонстрирует улучшенную способность понимать контекст в разговорах. ## Значимость Наша модель имеет широкие области применения, в том числе в системах консультирования, сервисных роботах, системах контроля качества звонков и в разработке интеллектуальных ассистентов. Особым

Abstract

Conversational systems relying on text-based large language models (LLMs) often overlook paralinguistic cues, essential for understanding emotions and intentions. Speech-language models (SLMs), which use speech as input, are emerging as a promising solution. However, SLMs built by extending frozen LLMs struggle to capture paralinguistic information and exhibit reduced context understanding. We identify entangled information and improper training strategies as key issues. To address these issues, we propose two heterogeneous adapters and suggest a weakly supervised training strategy. Our approach disentangles paralinguistic and linguistic information, enabling SLMs to interpret speech through structured representations. It also preserves contextual understanding by avoiding the generation of task-specific vectors through controlled randomness. This approach trains only the adapters on common datasets, ensuring parameter and data efficiency. Experiments demonstrate competitive performance in emotional conversation tasks, showcasing the model's ability to effectively integrate both paralinguistic and linguistic information within contextual settings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Dual Information Speech Language Models for Emotional Conversations

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Toward Conversational Hungarian Speech Recognition: Introducing the BEA-Large an...

Probing the Hidden Talent of ASR Foundation Models for L2 English Oral Assessmen...

Extending Audio Context for Long-Form Understanding in Large Audio-Language Mode...

Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual and Long...

The Sound of Syntax: Finetuning and Comprehensive Evaluation of Language Models ...

Навигация