Speech Emotion Recognition via Entropy-Aware Score Selection
2508.20796v1
cs.SD, cs.AI
2025-08-30
Авторы:
ChenYi Chua, JunKai Wong, Chengxin Chen, Xiaoxiao Miao
Резюме на русском
#### Контекст
Распознавание эмоций в речи (Speech Emotion Recognition, SER) является важной задачей в области научного исследования и практического применения. Она направлена на то, чтобы выявить эмоциональное состояние говорящего на основе анализа звуковых сигналов. Несмотря на прогрессы в этой области, существуют некоторые проблемы. Одним из основных вызовов является необходимость улучшить точность и надежность распознавания эмоций, особенно в условиях ненасыщенности данных. Другая проблема заключается в том, что существующие подходы часто ограничиваются одной модальностью (например, звуковой), что приводит к ограниченности их возможностей. Мотивацией для разработки нового подхода является необходимость создания многомодальной системы, которая могла бы объединить сигналы из разных модальностей, таких как аудио и текст, для повышения точности распознавания эмоций.
#### Метод
Предлагаемый подход представляет собой многомодальную архитектуру, состоящую из двух основных моделей: (1) акустической модели, основанной на wav2vec2.0, для извлечения эмоциональных признаков из звукового сигнала; (2) текстовой модели, основанной на RoBERTa-XLM, для вывода эмоциональных категорий на основе текстовых предсказаний. Для получения текстовых предсказаний используется Whisper-large-v3 для генерации текстовых транскрипций. Извлеченные признаки объединяются с помощью метода late score fusion, который основывается на теории энтропии. Для функционирования этого метода, вводится пороговое значение для вариации энтропии (varentropy), которое позволяет выбирать наиболее надежные предсказания. Затем, метод sentiment mapping, который преобразует три категории сентимента в четыре целевые эмоциональные класса, обеспечивает корректное объединение модальных прогнозов.
#### Результаты
Эксперименты проводились на двух данныхсеместрах: IEMOCAP и MSP-IMPROV. На IEMOCAP, система показала значительное улучшение в точности распознавания эмоций в сравнении с одномодальными подходами. На MSP-IMPROV, результаты также показали улучшение, хотя при этом была замечена некоторая нижняя вариативность в результатах. Эти результаты указывают на то, что предлагаемый подход является эффективным и надежным способом улучшения распознавания эмоций в речи, особенно когда используются многомодальные данные.
#### Значимость
Предлагаемый подход может быть применен в различных областях, таких как здравоохранение, образование и маркетинг, где распознавание эмоций является ключевым фактором успеха. Оно предлагает преимущества в том, что оно объединяет несколько модальностей, что позволяет извлечь более глубокие признаки. Это мож
Abstract
In this paper, we propose a multimodal framework for speech emotion
recognition that leverages entropy-aware score selection to combine speech and
textual predictions. The proposed method integrates a primary pipeline that
consists of an acoustic model based on wav2vec2.0 and a secondary pipeline that
consists of a sentiment analysis model using RoBERTa-XLM, with transcriptions
generated via Whisper-large-v3. We propose a late score fusion approach based
on entropy and varentropy thresholds to overcome the confidence constraints of
primary pipeline predictions. A sentiment mapping strategy translates three
sentiment categories into four target emotion classes, enabling coherent
integration of multimodal predictions. The results on the IEMOCAP and
MSP-IMPROV datasets show that the proposed method offers a practical and
reliable enhancement over traditional single-modality systems.
Ссылки и действия
Дополнительные ресурсы: