Speech Emotion Recognition via Entropy-Aware Score Selection

2508.20796v1 cs.SD, cs.AI 2025-08-30
Авторы:

ChenYi Chua, JunKai Wong, Chengxin Chen, Xiaoxiao Miao

Резюме на русском

#### Контекст Распознавание эмоций в речи (Speech Emotion Recognition, SER) является важной задачей в области научного исследования и практического применения. Она направлена на то, чтобы выявить эмоциональное состояние говорящего на основе анализа звуковых сигналов. Несмотря на прогрессы в этой области, существуют некоторые проблемы. Одним из основных вызовов является необходимость улучшить точность и надежность распознавания эмоций, особенно в условиях ненасыщенности данных. Другая проблема заключается в том, что существующие подходы часто ограничиваются одной модальностью (например, звуковой), что приводит к ограниченности их возможностей. Мотивацией для разработки нового подхода является необходимость создания многомодальной системы, которая могла бы объединить сигналы из разных модальностей, таких как аудио и текст, для повышения точности распознавания эмоций. #### Метод Предлагаемый подход представляет собой многомодальную архитектуру, состоящую из двух основных моделей: (1) акустической модели, основанной на wav2vec2.0, для извлечения эмоциональных признаков из звукового сигнала; (2) текстовой модели, основанной на RoBERTa-XLM, для вывода эмоциональных категорий на основе текстовых предсказаний. Для получения текстовых предсказаний используется Whisper-large-v3 для генерации текстовых транскрипций. Извлеченные признаки объединяются с помощью метода late score fusion, который основывается на теории энтропии. Для функционирования этого метода, вводится пороговое значение для вариации энтропии (varentropy), которое позволяет выбирать наиболее надежные предсказания. Затем, метод sentiment mapping, который преобразует три категории сентимента в четыре целевые эмоциональные класса, обеспечивает корректное объединение модальных прогнозов. #### Результаты Эксперименты проводились на двух данныхсеместрах: IEMOCAP и MSP-IMPROV. На IEMOCAP, система показала значительное улучшение в точности распознавания эмоций в сравнении с одномодальными подходами. На MSP-IMPROV, результаты также показали улучшение, хотя при этом была замечена некоторая нижняя вариативность в результатах. Эти результаты указывают на то, что предлагаемый подход является эффективным и надежным способом улучшения распознавания эмоций в речи, особенно когда используются многомодальные данные. #### Значимость Предлагаемый подход может быть применен в различных областях, таких как здравоохранение, образование и маркетинг, где распознавание эмоций является ключевым фактором успеха. Оно предлагает преимущества в том, что оно объединяет несколько модальностей, что позволяет извлечь более глубокие признаки. Это мож

Abstract

In this paper, we propose a multimodal framework for speech emotion recognition that leverages entropy-aware score selection to combine speech and textual predictions. The proposed method integrates a primary pipeline that consists of an acoustic model based on wav2vec2.0 and a secondary pipeline that consists of a sentiment analysis model using RoBERTa-XLM, with transcriptions generated via Whisper-large-v3. We propose a late score fusion approach based on entropy and varentropy thresholds to overcome the confidence constraints of primary pipeline predictions. A sentiment mapping strategy translates three sentiment categories into four target emotion classes, enabling coherent integration of multimodal predictions. The results on the IEMOCAP and MSP-IMPROV datasets show that the proposed method offers a practical and reliable enhancement over traditional single-modality systems.

Ссылки и действия