EmoTale: An Enacted Speech-emotion Dataset in Danish
2508.14548v1
cs.CL, cs.SD, eess.AS
2025-08-22
Авторы:
Maja J. Hjuler, Harald V. Skat-Rørdam, Line H. Clemmensen, Sneha Das
Резюме на русском
## Контекст
Исследование сосредоточено на проблематике любознательного расширения корпусов эмоционального речевого анализа, ориентированных на менее широко говорящие языки. Известно, что существует недостаток функциональных данных для менее распространенных языков, таких как датский. Датский эмоциональный речевой (DES) корпус, опубликованный в 1997 году, является единственным известным базой данных эмоциональной речи на данном языке. Для компенсации этого недостатка представлен корпус EmoTale, который включает записи речи на датском и английском языках с ассоциированными ансамбленными эмоциональными оценками. Этот корпус предназначен для поддержки развития моделей распознавания эмоций в речи (SER), особенно в небольших языках.
## Метод
EmoTale состоит из двух частей: датских и английских речевых записей, сопровождаемых ансамбленными эмоциональными оценками. Методология использовала самосваленные модели распознавания речи (SSLM) и функциональный инструмент openSMILE для экстракции признаков. Модели были обучены с использованием этих функций для предсказания эмоциональных состояний на основе речи. Это позволило проверить точность и эффективность EmoTale в сравнении с другими корпусами. Для сравнения использовался DES.
## Результаты
Использование SSLM-эмбеддингов показало значительное превосходство по сравнению с традиционными ручными признаками. На EmoTale был достигнут уровень точности примерно в 64.1% при кросс-валидации с leave-one-speaker-out, что стабильно соответствует результатам DES. Это подтверждает справедливость EmoTale как надежного источника данных для развития моделей SER.
## Значимость
Корпус EmoTale является первым широкого круга применения для эмоциональной речи на датском языке. Его можно применять для разработки и тестирования моделей распознавания эмоций в речи, что включает биометрическое распознавание, анализ звука и психологическое исследование эмоций. Он дает возможность расширить исследования в этой области на менее широко говорящих языках, которое было ограничено ранее.
## Выводы
Результаты EmoTale показывают высокую эффективность использования SSLM-эмбеддингов для предсказания эмоций в речи на менее распространенных языках. Будущие исследования будут фокусироваться на расширении EmoTale, включении дополнительных эмоциональных состояний и исследовании различных стилей речи. Этот корпус может стать важной ресурсной базой для дальнейшего развития технологий распознавания эмоций в речи на менее распространенных языках.
Abstract
While multiple emotional speech corpora exist for commonly spoken languages,
there is a lack of functional datasets for smaller (spoken) languages, such as
Danish. To our knowledge, Danish Emotional Speech (DES), published in 1997, is
the only other database of Danish emotional speech. We present EmoTale; a
corpus comprising Danish and English speech recordings with their associated
enacted emotion annotations. We demonstrate the validity of the dataset by
investigating and presenting its predictive power using speech emotion
recognition (SER) models. We develop SER models for EmoTale and the reference
datasets using self-supervised speech model (SSLM) embeddings and the openSMILE
feature extractor. We find the embeddings superior to the hand-crafted
features. The best model achieves an unweighted average recall (UAR) of 64.1%
on the EmoTale corpus using leave-one-speaker-out cross-validation, comparable
to the performance on DES.
Ссылки и действия
Дополнительные ресурсы: