Dual Information Speech Language Models for Emotional Conversations
2508.08095v1
cs.CL, cs.AI, cs.SD, eess.AS
2025-08-13
Авторы:
Chun Wang, Chenyang Liu, Wenze Xu, Weihong Deng
Резюме на русском
## Контекст
Говорящие системы, основанные на текстовых больших лингвистических моделях (LLMs), часто пропускают паралингвистические сигналы, которые играют ключевую роль в понимании эмоций и намерений. Для решения этой проблемы появились модели речи-языка (SLMs), которые используют записи речи в качестве входных данных. Однако существующие SLMs, разработанные на основе замороженных LLMs, сталкиваются с ограниченным пониманием контекста и неэффективным извлечением паралингвистических сигналов. Основные проблемы включают конфузированность информации и неудачные стратегии обучения. Модели, которые не могут эффективно различать лингвистическую и паралингвистическую информацию, не могут предоставить богатый контекст для понимания эмоций и намерений. Наша цель — создать модель, которая избавится от этих проблем и позволит SLM эффективно интегрировать обе сферы информации в контексте диалога.
## Метод
Мы предлагаем двухадаптеровую модель, которая разделяет паралингвистическую и лингвистическую информацию на отдельных уровнях. Одна адаптера отвечает за паралингвистические сигналы (например, тональность, интонация), а другая — за лингвистические (семантику и лексику). Мы также предлагаем непрерывное слабо направленное обучение, которое позволяет модели учиться сохранять контекст, не забывая о паралингвистических сигналах. Модель обучается на существующих общих данных, используя только адаптеры для изменения представлений слов, что делает ее эффективной в плане параметров и используемых данных. За основу этой модели мы берем уже существующие LLM, но изменяем его поведение через адаптивные слои, которые обрабатывают паралингвистическую информацию раздельно от лингвистической.
## Результаты
Мы проверили нашу модель на задачах распознавания эмоций в разговорах. Для обучения использовались данные, содержащие как текстовую, так и аудио-информацию. Наши эксперименты показали, что модель Dual Information Speech Language Model (DISLM) превосходит существующие SLM-модели по метрикам, таким как F1-score и accuracy. Дискурсные сигналы, такие как звучание, тональность и интонация, были эффективно интегрированы в лингвистическую модель, что повлияло на качество понимания эмоций. Модель также показала высокую точность в задачах классификации эмоций и демонстрирует улучшенную способность понимать контекст в разговорах.
## Значимость
Наша модель имеет широкие области применения, в том числе в системах консультирования, сервисных роботах, системах контроля качества звонков и в разработке интеллектуальных ассистентов. Особым
Abstract
Conversational systems relying on text-based large language models (LLMs)
often overlook paralinguistic cues, essential for understanding emotions and
intentions. Speech-language models (SLMs), which use speech as input, are
emerging as a promising solution. However, SLMs built by extending frozen LLMs
struggle to capture paralinguistic information and exhibit reduced context
understanding. We identify entangled information and improper training
strategies as key issues. To address these issues, we propose two heterogeneous
adapters and suggest a weakly supervised training strategy. Our approach
disentangles paralinguistic and linguistic information, enabling SLMs to
interpret speech through structured representations. It also preserves
contextual understanding by avoiding the generation of task-specific vectors
through controlled randomness. This approach trains only the adapters on common
datasets, ensuring parameter and data efficiency. Experiments demonstrate
competitive performance in emotional conversation tasks, showcasing the model's
ability to effectively integrate both paralinguistic and linguistic information
within contextual settings.