UPLME: Uncertainty-Aware Probabilistic Language Modelling for Robust Empathy Regression
2508.03520v1
cs.CL, cs.LG
2025-08-09
Авторы:
Md Rakibul Hasan, Md Zakir Hossain, Aneesh Krishna, Shafin Rahman, Tom Gedeon
Резюме на русском
**Резюме**
В статье предлагается UPLME — модель нейронной сети, ориентированная на решение проблемы регрессии эмпатии в условиях шумных самооценочных оценок. Шумные данные становится сложнее обрабатывать в задачах регрессии по сравнению с задачами классификации. Разработанная модель UPLME решает эту проблему с помощью семантического моделирования с учетом неопределенности, используя пробаболистическую модель языка, которая предсказывает не только эмпатию, но и уровень неопределенности в этом предсказании. Для обучения вводятся два новых компонента потерь: один подавляет дегенерацию уточнения неопределенности, а другой важает схожесть между входными парами, для которых предсказывается эмпатия. Модель показывает лучшие результаты по двум открытым бенчмаркам с шумом в метках: улучшает показатели Pearson Correlation Coefficient (PCC) на $0.022$ и $0.005$, а также снижает ошибку калибровки на $0.2$ в сравнении со стандартными методами регрессии с учетом неопределенности. Это демонстрирует эффективность UPLME в обработке шумных данных и в точном выявлении шумовых и чистых примеров.
Abstract
Supervised learning for empathy regression is challenged by noisy
self-reported empathy scores. While many algorithms have been proposed for
learning with noisy labels in textual classification problems, the regression
counterpart is relatively under-explored. We propose UPLME, an
uncertainty-aware probabilistic language modelling framework to capture label
noise in the regression setting of empathy detection. UPLME includes a
probabilistic language model that predicts both empathy score and
heteroscedastic uncertainty and is trained using Bayesian concepts with
variational model ensembling. We further introduce two novel loss components:
one penalises degenerate Uncertainty Quantification (UQ), and another enforces
the similarity between the input pairs on which we predict empathy. UPLME
provides state-of-the-art performance (Pearson Correlation Coefficient:
$0.558\rightarrow0.580$ and $0.629\rightarrow0.634$) in terms of the
performance reported in the literature in two public benchmarks, having label
noise. Through synthetic label noise injection, we show that UPLME is effective
in separating noisy and clean samples based on the predicted uncertainty. UPLME
further outperform (Calibration error: $0.571\rightarrow0.376$) a recent
variational model ensembling-based UQ method designed for regression problems.
Ссылки и действия
Дополнительные ресурсы: