Incorporating Contextual Paralinguistic Understanding in Large Speech-Language Models

2508.07273v1 cs.CL, cs.AI, eess.AS 2025-08-13

Авторы:

Qiongqiong Wang, Hardik B. Sailor, Jeremy H. M. Wong, Tianchi Liu, Shuo Sun, Wenyu Zhang, Muhammad Huzaifah, Nancy Chen, Ai Ti Aw

Резюме на русском

## Контекст В последние годы появились большие модели языка, которые обладают высокой точностью в обработке текстовых данных. Однако в сфере распознавания речи эти модели часто сталкиваются с проблемами, связанными с недостаточным пониманием контекста и паралюнгвистических признаков, таких как эмоциональные оттенки или тональность. Это ограничивает их применение в сценариях, требующих эмоционального рассуждения, таких как взаимодействия с клиентами или помощь людям с ограниченными функциями языка. Необходимо развить методы, которые позволят моделям лучше понимать и реагировать на эти паралюнгвистические сигналы, улучшая их эмоциональную интеллектуальность. ## Метод Мы предлагаем два подхода для включения контекста и паралюнгвистических признаков в обучение больших моделей речевого понимания. **Первый подход** — это прямое использование паралюнгвистической метаинформации, такой как аннотации эмоций, напрямую в процессе обучения модели. **Второй подход** — это автоматическое генерирование вопросов-ответов (QA-пар) на основе категориальных и димиенциональных аннотаций эмоций, а также речевых транскрипций. Этот подход позволяет модели не только получить информацию о контексте, но и сформировать самостоятельные мысли об эмоции, улучшая ее углубленное понимание. ## Результаты Мы провели эксперименты с применением двух подходов на корпусе QA-пар с человеческими аннотациями эмоций. Эксперименты показали, что **автоматическое генерирование QA-пар повышает точность модели на 38.41% в сравнении с базовой версией LLM**. Когда оба подхода (explicit и implicit) объединяются, результаты улучшаются до **46.02%**, что демонстрирует эффективность комбинированного подхода. Также мы проверили надежность LLM-judge, обнаружив высокую корреляцию с классическими методами оценки качества моделей. ## Значимость Наши результаты доказывают, что модели с поддержкой контекста и паралюнгвистических признаков могут значительно улучшиться в задачах, требующих эмоционального рассуждения. Это открывает широкие перспективы для использования в сферах, таких как клиентская служба, медицинское обслуживание и социальная поддержка. Преимущества нашего подхода также заключаются в том, что он может быть интегрирован в уже существующие модели без внесения значительных изменений в архитектуру и обучение. Это делает его привлекательным для практического применения. ## Выводы Мы успешно продемонстрировали, что интеграция контекста и паралюнгвистических признаков в модели речи-языка может значительно улучшить их эмоциональное понимание. Нашей

Abstract

Current large speech language models (Speech-LLMs) often exhibit limitations in empathetic reasoning, primarily due to the absence of training datasets that integrate both contextual content and paralinguistic cues. In this work, we propose two approaches to incorporate contextual paralinguistic information into model training: (1) an explicit method that provides paralinguistic metadata (e.g., emotion annotations) directly to the LLM, and (2) an implicit method that automatically generates novel training question-answer (QA) pairs using both categorical and dimensional emotion annotations alongside speech transcriptions. Our implicit method boosts performance (LLM-judged) by 38.41% on a human-annotated QA benchmark, reaching 46.02% when combined with the explicit approach, showing effectiveness in contextual paralinguistic understanding. We also validate the LLM judge by demonstrating its correlation with classification metrics, providing support for its reliability.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Incorporating Contextual Paralinguistic Understanding in Large Speech-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations...

Closing the Gap Between Text and Speech Understanding in LLMs

Can Speech LLMs Think while Listening?

Z-Scores: A Metric for Linguistically Assessing Disfluency Removal

DRES: Benchmarking LLMs for Disfluency Removal

Навигация