More Similar than Dissimilar: Modeling Annotators for Cross-Corpus Speech Emotion Recognition

2509.12295v1 cs.SD, cs.LG, eess.AS 2025-09-18
Авторы:

James Tavernor, Emily Mower Provost

Резюме на русском

#### Контекст Идентификация эмоций в речи (Speech Emotion Recognition, SER) является важной задачей в области машинного обучения, которая находит применение в реальном времени для повышения качества взаимодействия человека и технологий. Однако многие существующие модели SER вынуждены предсказывать одну стандартную метку эмоции, получаемую как результат среднего согласования нескольких аннотаторов. Это снижает точность предсказаний, так как такие модели не учитывают индивидуальные особенности каждого аннотатора. Другие подходы, которые предполагают предсказание отдельных аннотаторов, требуют индивидуального обучения на их данных, что дорогостояще и нежелательно в реальном мире. Мы предлагаем новый подход, использующий существующие модели, обученные на большом наборе данных относительно стандартных аннотаторов, для нахождения похожего аннотатора. Мы используем ограниченные данные от нового аннотатора, чтобы делать предсказания для данного аннотатора, обеспечивая персонализацию с минимальными затратами. #### Метод Мы используем модель, обученную на большой выборке данных от аннотаторов, для того, чтобы научиться прогнозировать индивидуальные особенности каждого аннотатора. Модель распознает сходство между новым аннотатором и предыдущими, используя ограниченные данные от нового аннотатора. Для этого мы предлагаем архитектуру, которая может адаптироваться к новым аннотаторам с помощью небольшого набора данных, который может быть быстро собран. Мы запускаем модель на нескольких датасетах и сравниваем результаты с другими методами. Данные используются в виде звуковых файлов, аннотированных разными аннотаторами, для того, чтобы обучить модель и проверить ее точность. #### Результаты Мы проводим эксперименты на нескольких датасетах, включая IEMOCAP и RAVDESS. Мы устанавливаем новый стандарт для точности предсказания эмоций, который значительно превосходит другие подходы, которые не рассматривают подробности индивидуальности аннотаторов. Мы проверяем точность наших предсказаний, сравнивая их с предыдущими результатами, и показываем, что наш подход эффективно предсказывает эмоции в речи, даже для новых аннотаторов, когда имеется ограниченное количество доступных данных. #### Значимость Мы показываем, что наш подход может быть использован в реальных ситуациях, таких как распознавание эмоций в обслуживании клиентов, взаимодействии с ботами и даже в здравоохранении. Этот подход позволяет очень быстро адаптироваться к новым аннотаторам без необходимости собирать большие объемы специфических для каждого аннотатора данных. Это не только экономит время и ресурсы, но и позволяет использовать

Abstract

Speech emotion recognition systems often predict a consensus value generated from the ratings of multiple annotators. However, these models have limited ability to predict the annotation of any one person. Alternatively, models can learn to predict the annotations of all annotators. Adapting such models to new annotators is difficult as new annotators must individually provide sufficient labeled training data. We propose to leverage inter-annotator similarity by using a model pre-trained on a large annotator population to identify a similar, previously seen annotator. Given a new, previously unseen, annotator and limited enrollment data, we can make predictions for a similar annotator, enabling off-the-shelf annotation of unseen data in target datasets, providing a mechanism for extremely low-cost personalization. We demonstrate our approach significantly outperforms other off-the-shelf approaches, paving the way for lightweight emotion adaptation, practical for real-world deployment.

Ссылки и действия