Surface Stability Modeling with Universal Machine Learning Interatomic Potentials: A Comprehensive Cleavage Energy Benchmarking Study

2508.21663v1 cond-mat.mtrl-sci, cs.LG, physics.comp-ph 2025-09-02
Авторы:

Ardavan Mehdizadeh, Peter Schindler

Резюме на русском

## Контекст Машинное обучение взаимодействия атомов (MLIP) является выразительным достижением в области компьютерных наук в материаловедении, позволяющим решить проблему баланса точности квантовой механики и эффективности классических моделей. Эти модели расширяют возможности исследований свойств материалов по всему периодическому столбцу. Однако необходимо провести систематический анализ того, насколько эффективно эти модели могут предсказывать значения щельной энергии, фундаментально важную характеристику, которая влияет на трещины, катализ и стабильность поверхности. ## Метод Работа основывается на проведении многогранного тестирования 19 современных моделей MLIP. Для этого использована база данных DFT, содержащая 36 718 слабистых структур, представляющих элементарные, бинарные и тернарные металлические соединения. Оценивались различные архитектуры моделей на различных критериях: химической структуре, кристаллической системе, толщине и направления поверхности. Особое внимание уделялось анализу различных источников данных, включая тренировочные данные, отклоняющиеся от равновесных закономерностей и данные, связанные с адзорбатами. ## Результаты На основе проведенных экспериментов выяснилось, что объем и характер данных для обучения имеют большое значение, чем архитектура модели. Тренировочные данные, включающие неравновесные конфигурации, позволяют достичь значительной точности — менее 6% по отношению к DFT-значениям, и правильно выбирают наиболее стабильные поверхностные терминации в 87% случаев. Модели, обученные только на равновесных данных, показали пятикратное увеличение ошибки, тогда как модели с данными об адзорбатах провалились, показав семнадцатикратное ухудшение. Более простые архитектуры, если обучаться на правильных данных, демонстрируют сопоставимую точность с более сложными моделями, при этом работая на 10-100 раз быстрее. ## Значимость Полученные результаты имеют перспективное применение в области конструирования материалов, катализаторов и энергетики. Также модели MLIP демонстрируют значительное потенциальное влияние на развитие компьютерной техники и интеллектуальных технологий в науке о материалах. Эти модели могут повысить эффективность расчетов и снизить требования к ресурсам. ## Выводы Полученные результаты демонстрируют, что главное влияние на точность моделей имеют исходные данные, а не архитектура модели. Необходимо сфокусироваться на создании стратегически ориентированных тренировочных данных, которые лучше отражают физические

Abstract

Machine learning interatomic potentials (MLIPs) have revolutionized computational materials science by bridging the gap between quantum mechanical accuracy and classical simulation efficiency, enabling unprecedented exploration of materials properties across the periodic table. Despite their remarkable success in predicting bulk properties, no systematic evaluation has assessed how well these universal MLIPs (uMLIPs) can predict cleavage energies, a critical property governing fracture, catalysis, surface stability, and interfacial phenomena. Here, we present a comprehensive benchmark of 19 state-of-the-art uMLIPs for cleavage energy prediction using our previously established density functional theory (DFT) database of 36,718 slab structures spanning elemental, binary, and ternary metallic compounds. We evaluate diverse architectural paradigms, analyzing their performance across chemical compositions, crystal systems, thickness, and surface orientations. Our results reveal that training data composition dominates architectural sophistication: models trained on the Open Materials 2024 (OMat24) dataset, which emphasizes non-equilibrium configurations, achieve mean absolute percentage errors below 6% and correctly identify the thermodynamically most stable surface terminations in 87% of cases, without any explicit surface energy training. In contrast, architecturally identical models trained on equilibrium-only datasets show five-fold higher errors, while models trained on surface-adsorbate data fail catastrophically with a 17-fold degradation. Remarkably, simpler architectures trained on appropriate data achieve comparable accuracy to complex transformers while offering 10-100x computational speedup. These findings show that the community should focus on strategic training data generation that captures the relevant physical phenomena.

Ссылки и действия

Связанные статьи

A simulation-based training framework for machine-learning applications in ARPES

## Контекст Angle-resolved photoemission spectroscopy (ARPES) является важной технологией для изучения поверхностных и ...

2025-08-26

FIRE-GNN: Force-informed, Relaxed Equivariance Graph Neural Network for Rapid an...

#### Контекст Определение рабочей функции и энергии трещины поверхности является ключевым заданием при разработке матери...

2025-08-26

Machine Learning Time Propagators for Time-Dependent Density Functional Theory S...

#### Контекст Задача исследования — ускорение симуляций электронных динамик в рамках временной зависимой теории диффузии...

2025-08-26

Symmetry-Constrained Multi-Scale Physics-Informed Neural Networks for Graphene E...

## Контекст Определение электронных банд структур двумерных материалов является ключевым вопросом в теории кристаллов и ...

2025-08-16