Confidence Calibration in Large Language Model-Based Entity Matching

2509.19557v1 cs.CL, cs.LG 2025-09-26

Авторы:

Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro

Резюме на русском

## Контекст В последние годы Ларже Легги ей Сичерз являются ключевым инструментом в области различных автоматизированных задач. Эти модели превосходно подходят для различных ситуаций, в том числе для решения задач типа Entity Matching, которые заключаются в сравнении двух наборов данных и определении соответствия сущностей. Однако, несмотря на высокую точность, эти модели часто оставляют за собой недостаточно обоснованные уверенности в своих ответах, что может привести к ошибкам в принятии решений. Более того, нет в полной мере изученных способов улучшения уверенности в этих моделях. Наша исследовательская группа решила охватить этот вопрос и понять, насколько эффективны использование различных методов уверенности, таких как Temperature Scaling, Monte Carlo Dropout и Model Ensembles. Мы ставим целью сравнить калибровку уверенности в стандартной модели RoBERTa с калибровленными моделями, чтобы выявить наиболее эффективные подходы. ## Метод Мы использовали несколько техник, включая Temperature Scaling, Monte Carlo Dropout и Model Ensembles, для калибровки уверенности моделей стандартной RoBERTa. Наше исследование охватило несколько датасетов, в том числе Abt-Buy, DBLP-ACM, iTunes-Amazon и Company. Для каждого датасета мы сравнили оригинальную модель RoBERTa с калиброванными моделями, измеряя показатели качества и оценивая влияние калибровки на зависимость моделей. Наше значение показателя Expected Calibration Error (ECE) является основным критерием, по которому мы оценивали успех калибровки уверенности. ## Результаты Мы нашли, что стандартная модель RoBERTa показывает довольно высокий уровень уверенности, однако часто завышает эту уверенность. Это может привести к серьезным ошибкам в Entity Matching. Целью нашего исследования был выявлен способ, позволяющий улучшить калибровку уверенности. Мы убедились, что применение Temperature Scaling позволило значительно снизить Expected Calibration Error, улучшив точность модели. Например, на датасете iTunes-Amazon, ECE-показатель уменьшился на 23.83%. ## Значимость Мы обнаружили, что калибровка уверенности может существенно повысить точность и доверие к решениям, принятым на основе моделей Entity Matching. Наши результаты показывают, что Temperature Scaling — это эффективный подход для устранения переоценки уверенности в стандартных моделях RoBERTa. Это может иметь значительное влияние в области автоматизации, где точность и доверие к решениям крайне важны. ## Выводы Мы подтвердили, что калибровка уверенности может значительно повысить качество Entity Matching. Наше исследование показало, что Temperature Scaling — наиболее эффективный подход для уменьшения ошибок в моделях RoBERTa. Наши полученные результаты и указатели могут помочь в будущих исследованиях, направленных на улучшение уверенности в моделях Entity Matching.

Abstract

This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Confidence Calibration in Large Language Model-Based Entity Matching

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-...

Exposing Pink Slime Journalism: Linguistic Signatures and Robust Detection Again...

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Навигация