UPLME: Uncertainty-Aware Probabilistic Language Modelling for Robust Empathy Regression

2508.03520v1 cs.CL, cs.LG 2025-08-09
Авторы:

Md Rakibul Hasan, Md Zakir Hossain, Aneesh Krishna, Shafin Rahman, Tom Gedeon

Резюме на русском

**Резюме** В статье предлагается UPLME — модель нейронной сети, ориентированная на решение проблемы регрессии эмпатии в условиях шумных самооценочных оценок. Шумные данные становится сложнее обрабатывать в задачах регрессии по сравнению с задачами классификации. Разработанная модель UPLME решает эту проблему с помощью семантического моделирования с учетом неопределенности, используя пробаболистическую модель языка, которая предсказывает не только эмпатию, но и уровень неопределенности в этом предсказании. Для обучения вводятся два новых компонента потерь: один подавляет дегенерацию уточнения неопределенности, а другой важает схожесть между входными парами, для которых предсказывается эмпатия. Модель показывает лучшие результаты по двум открытым бенчмаркам с шумом в метках: улучшает показатели Pearson Correlation Coefficient (PCC) на $0.022$ и $0.005$, а также снижает ошибку калибровки на $0.2$ в сравнении со стандартными методами регрессии с учетом неопределенности. Это демонстрирует эффективность UPLME в обработке шумных данных и в точном выявлении шумовых и чистых примеров.

Abstract

Supervised learning for empathy regression is challenged by noisy self-reported empathy scores. While many algorithms have been proposed for learning with noisy labels in textual classification problems, the regression counterpart is relatively under-explored. We propose UPLME, an uncertainty-aware probabilistic language modelling framework to capture label noise in the regression setting of empathy detection. UPLME includes a probabilistic language model that predicts both empathy score and heteroscedastic uncertainty and is trained using Bayesian concepts with variational model ensembling. We further introduce two novel loss components: one penalises degenerate Uncertainty Quantification (UQ), and another enforces the similarity between the input pairs on which we predict empathy. UPLME provides state-of-the-art performance (Pearson Correlation Coefficient: $0.558\rightarrow0.580$ and $0.629\rightarrow0.634$) in terms of the performance reported in the literature in two public benchmarks, having label noise. Through synthetic label noise injection, we show that UPLME is effective in separating noisy and clean samples based on the predicted uncertainty. UPLME further outperform (Calibration error: $0.571\rightarrow0.376$) a recent variational model ensembling-based UQ method designed for regression problems.

Ссылки и действия