Evaluating Universal Machine Learning Force Fields Against Experimental Measurements
2508.05762v1
cond-mat.mtrl-sci, cs.LG
2025-08-12
Авторы:
Sajid Mannan, Vaibhav Bihani, Carmelo Gonzales, Kin Long Kelvin Lee, Nitya Nand Gosvami, Sayan Ranu, Santiago Miret, N M Anoop Krishnan
Резюме на русском
## Контекст
Материаловедение и химия наноструктур широко применяются в разработке новых материалов, но их развитие ограничивается долгим и дорогостоящим процессом экспериментов. Универсальные модели машинного обучения для силы (Universal Machine Learning Force Fields, UMLFFs) предлагают революционную возможность сократить время и стоимость разработки материалов, предназначенных для многочисленных приложений. Однако существуют значительные проблемы с оцениванием этих моделей. Настоящие эксперименты в материаловедении достаточно сложны и представляют собой многочисленные химические и физические факторы, которые могут существенно изменять поведение материалов. Эти факторы часто остаются за пределами учета в существующих моделях и контролируемых вычислительных экспериментах. Таким образом, нужно разработать эффективный метод для проверки и оценки моделей UMLFFs, чтобы их можно было использовать на практике с минимальным риском ошибок и неоднозначности.
## Метод
Мы предложили UniFFBench — новую систему для оценки UMLFFs, которая основывается на сравнении моделей с реальными экспериментальными данными. UniFFBench включает в себя базу данных, содержащую ~1 500 структур минералов, характеризующих различные виды химических связей, сложности структур и свойств эластичности. Данные были загружены из различных открытых источников, таких как Materials Project и ICSD. Мы оценивали диапазон шести современных моделей UMLFFs, используя три ключевые критерия: точность предсказаний, стабильность моделирования и практическую применимость результатов. Эта система позволяет выявить систематические недостатки и представляет собой новый стандарт для проверки моделей UMLFFs в реальных условиях.
## Результаты
Наши результаты показали, что хотя некоторые модели UMLFFs показали высокую точность в вычислительных экспериментах, они существенно существенно замедляются в реальных условиях. Наилучшая модель имела средний отклонение в предсказании плотности в 5%, что превышает допустимую погрешность для большинства прикладных задач. Мы также обнаружили, что представление данных в обучающем наборе имеет более значительное влияние на точность модели, чем метод моделирования. Это значит, что модели, обученные на ограниченных данных, могут представлять собой недостоверные суждения о реальных материалах. Кроме того, мы обнаружили сильное расхождение между стабильностью моделирования и точностью предсказания механических свойств, что подтверждает требуемый подход к оценке UMLFFs.
## Значимость
UniFFBench представляет собой эффективный инструмент для экспериментальной оценки UMLFFs и может бы
Abstract
Universal machine learning force fields (UMLFFs) promise to revolutionize
materials science by enabling rapid atomistic simulations across the periodic
table. However, their evaluation has been limited to computational benchmarks
that may not reflect real-world performance. Here, we present UniFFBench, a
comprehensive framework for evaluating UMLFFs against experimental measurements
of ~1,500 carefully curated mineral structures spanning diverse chemical
environments, bonding types, structural complexity, and elastic properties. Our
systematic evaluation of six state-of-the-art UMLFFs reveals a substantial
reality gap: models achieving impressive performance on computational
benchmarks often fail when confronted with experimental complexity. Even the
best-performing models exhibit higher density prediction error than the
threshold required for practical applications. Most strikingly, we observe
disconnects between simulation stability and mechanical property accuracy, with
prediction errors correlating with training data representation rather than the
modeling method. These findings demonstrate that while current computational
benchmarks provide valuable controlled comparisons, they may overestimate model
reliability when extrapolated to experimentally complex chemical spaces.
Altogether, UniFFBench establishes essential experimental validation standards
and reveals systematic limitations that must be addressed to achieve truly
universal force field capabilities.