Model Accuracy and Data Heterogeneity Shape Uncertainty Quantification in Machine Learning Interatomic Potentials

2508.03405v1 cond-mat.mtrl-sci, cs.LG 2025-08-09
Авторы:

Fei Shuang, Zixiong Wei, Kai Liu, Wei Gao, Poulumi Dey

Резюме на русском

## Контекст Машинное обучение для интератомных потенциалов (MLIP) позволяет осуществлять точную атомной моделирование, но полное учетное вероятностное оценивание (UQ) остается трудной задачей. В настоящей работе рассматриваются две стратегии UQ — параллельное обучение и D-оптимальность — в рамках модели атомного кластерного расширения. Оказывается, что высокая точность модели усиливает связь между предсказанными неопределенностями и фактическими ошибками, а также улучшает обнаружение новых данных. Д-оптимальность дает более осторожные оценки. Обе стратегии демонстрируют калиброванные неопределенности на чистом тренировочном наборе данных, однако при работе с смешанными данными показывают недооценку ошибок и уменьшенную чувствительность к новым данным. Для устранения этого недостатка предлагается кластеризационное усиление локальной D-оптимальности, которая делит пространство конфигураций на кластеры во время обучения и применяет D-оптимальность в каждом кластере. Это улучшает определение новых атомных среды в смешанных наборах данных. Исследование проясняет влияние точности модели и смешанности данных на производительность UQ и предоставляет путь к устойчивым стратегиям активного обучения и адаптивной выборки для развития MLIP. ## Метод Методология исследования основывается на параллельном обучении и D-оптимальности в модели атомного кластерного расширения. Метод параллельного обучения включает в себя разделение пространства конфигураций на независимые кластеры, что позволяет оценивать неопределенность на каждом кластере отдельно. Д-оптимальность основывается на оптимизации логарифма детерминанта матрицы информации для оценки неопределенности. Атомный кластерный расширение (ACE) — фреймворк, который представляет собой точечные характеристики атомов в зависимости от их окружения. Этот подход позволяет предсказывать характеристики атома, такие как энергия и сила, с учетом локального окружения. Для экспериментов использовались данные из моделирования сплавов и структур атомов, чтобы анализировать эффективность методов на разных типах данных. ## Результаты На основе экспериментов показано, что оба метода — параллельное обучение и D-оптимальность — дают достаточно калиброванные неопределенности на чистом тренировочном наборе данных. Однако на смешанных данных оба метода проявляют недооценку ошибок и уменьшенную чувствительность к новым данным. Кластеризационное усиление локальной D-оптимальности показало значительное улучшение в обнаружении новых атомных сред в смешанных наборах данных. Метод D-оптимальности дает более осторожные оценки неопределенности, что может быть полезно для

Abstract

Machine learning interatomic potentials (MLIPs) enable accurate atomistic modelling, but reliable uncertainty quantification (UQ) remains elusive. In this study, we investigate two UQ strategies, ensemble learning and D-optimality, within the atomic cluster expansion framework. It is revealed that higher model accuracy strengthens the correlation between predicted uncertainties and actual errors and improves novelty detection, with D-optimality yielding more conservative estimates. Both methods deliver well calibrated uncertainties on homogeneous training sets, yet they underpredict errors and exhibit reduced novelty sensitivity on heterogeneous datasets. To address this limitation, we introduce clustering-enhanced local D-optimality, which partitions configuration space into clusters during training and applies D-optimality within each cluster. This approach substantially improves the detection of novel atomic environments in heterogeneous datasets. Our findings clarify the roles of model fidelity and data heterogeneity in UQ performance and provide a practical route to robust active learning and adaptive sampling strategies for MLIP development.

Ссылки и действия