PDRL: Post-hoc Descriptor-based Residual Learning for Uncertainty-Aware Machine Learning Potentials
2509.02927v1
cs.LG, cond-mat.mtrl-sci
2025-09-05
Авторы:
Shih-Peng Huang, Nontawat Charoenphakdee, Yuta Tsuboi, Yong-Bin Zhuang, Wenwen Li
Резюме на русском
## Контекст
Машинное обучение в области интерактивных моделей, например, в моделях графов и взаимодействия атомов, получило широкое распространение в современных исследованиях. Одной из ключевых задач в этой области является квантификация неопределенности (Uncertainty Quantification, UQ), которая определяет точность и надежность моделей. Несмотря на то, что методы построения конфиденциальных интервалов (Credible Interval Construction, CIC), такие как ensemble method, являются золотым стандартом для UQ в моделях графов, они часто связаны с высокой вычислительной сложностью. Более эффективные алгоритмы, такие как Monte Carlo dropout и deep kernel learning, используются для уменьшения затрат, но некоторые из них не подходят для уже обученных моделей, а другие могут снизить точность прогнозирования. Многие из этих методов требуют переобучения модели или использования дополнительных вычислительных ресурсов, что снижает их практическую эффективность. В данной работе предлагается простой и эффективный пост-хокк раммер (post-hoc framework) для UQ, который использует дескриптор, полученный из обученной модели графовой нейронной сети, для оценки ошибок прогноза. Этот метод, названный Post-Hoc Descriptor-Based Residual Learning (PDRL), может быть применен для вычисления прогностической неопределенности в уже обученных моделях, что делает его привлекательным для прикладных задач.
## Метод
PDRL является простой пост-хокк моделью (post-hoc model), которая работает на основе дескрипторов, полученных из графовой нейронной сети. Основная идея заключается в том, чтобы оценивать ошибки прогноза (residuals), полученные из прогнозов модели, и использовать их в качестве признаков для оценки неопределенности. Для этого вводится новый функционал, основанный на резидуальной ошибке (residual-based functional), который позволяет моделировать неопределенность в моделировании. Метод может быть применен на предобученных моделях, не требуя их переобучения, что делает его эффективным в практических задачах. Архитектура PDRL включает в себя несколько модификаций, включая различные интерпретации резидуалов и функционалов, для точного моделирования неопределенности. Оптимизация результатов проводится с помощью градиентного спуска, чтобы подстроить модель под задачу.
## Результаты
Для оценки PDRL проводились эксперименты на множестве данных, включая тренировочные и тестовые выборки, сравниваясь с другими методами UQ, такими как ensemble method, Monte Carlo dropout и deep kernel learning. Были изучены различные варианты PDRL, включая различные алгоритмы оценки резидуалов и их взаимодействие с графовой нейронной сетью. Результаты показали, что PDRL обеспечивает высокую точность оценки неопределенности с меньшими вычислительными затратами по сравнению с другими методами. Такж
Abstract
Ensemble method is considered the gold standard for uncertainty
quantification (UQ) for machine learning interatomic potentials (MLIPs).
However, their high computational cost can limit its practicality. Alternative
techniques, such as Monte Carlo dropout and deep kernel learning, have been
proposed to improve computational efficiency; however, some of these methods
cannot be applied to already trained models and may affect the prediction
accuracy. In this paper, we propose a simple and efficient post-hoc framework
for UQ that leverages the descriptor of a trained graph neural network
potential to estimate residual errors. We refer to this method as post-hoc
descriptor-based residual-based learning (PDRL). PDRL models the discrepancy
between MLIP predictions and ground truth values, allowing these residuals to
act as proxies for prediction uncertainty. We explore multiple variants of PDRL
and benchmark them against established UQ methods, evaluating both their
effectiveness and limitations.