A simulation-based training framework for machine-learning applications in ARPES

2508.15983v1 cond-mat.mtrl-sci, cs.LG, physics.comp-ph 2025-08-26
Авторы:

MengXing Na, Chris Zhou, Sydney K. Y. Dufresne, Matteo Michiardi, Andrea Damascelli

Резюме на русском

## Контекст Angle-resolved photoemission spectroscopy (ARPES) является важной технологией для изучения поверхностных и энергетических структур в материалах. Она позволяет проанализировать энергетическое распределение электронов на поверхности и динамику их интеракции с зоной Ферми. Несмотря на развитие технологий, ARPES сталкивается с проблемами в обработке и анализе многомерных данных, возникающих при использовании современных сенсоров и систем измерения. Машинное обучение (ML) используется для упрощения этих задач, однако недостаток высококачественных данных для обучения ограничивает его эффективность. Целью настоящей работы является разработка симуляционного фреймворка для генерации данных ARPES, который может значительно упростить исследовательский процесс. ## Метод Разработанный фреймворк, названный Aurelia, является открытым исходным кодом и специализируется на симуляции сигналов ARPES. Он использует геометрические модели, физические модели переходов электронов и методы симуляции отклика материала на ангулярно-резолюционное действие фотоэмиссии. Фреймворк генерирует синтетические данные ARPES, которые могут быть использованы для обучения моделей ML, включая глубокие нейронные сети. Для демонстрации возможностей Aurelia, мы обучили конволюционную нейронную сеть (CNN) для оценки качества спектров ARPES, важной задачей в эксперименте. ## Результаты Используя Aurelia, мы генерировали большие наборы синтетических данных ARPES, которые были использованы для обучения CNN. Модель была специально настроена для оценки качества спектров ARPES в начальной стадии эксперимента, которая требует точной настройки и анализа. Наши результаты показали, что CNN, обученная на синтетических данных, превосходит людской анализ в точности определения качества спектров и быстрости выявления оптимальных областей измерений. Это доказывает, что симуляционные данные ARPES могут эффективно заменить экспериментальные данные в ходе обучения ML-моделей. ## Значимость Разработанный подход имеет широкое применение в области ARPES, в том числе для автоматизации анализа данных, улучшения точности измерений и сокращения времени экспериментов. Он также может быть использован в других областях, где требуется синтез высококачественных данных для обучения ML-моделей. Преимуществами работы является уменьшение затрат на сбор экспериментальных данных, увеличение точности исследований и возможность исследователям сосредоточиться на анализе результатов вместо рутинных задач. ## Выводы Работа доказывает, что симуляционные данные ARPES могут значительно улучшить эффективность и точность исследований в области глубокого обучения. Будущие исс

Abstract

In recent years, angle-resolved photoemission spectroscopy (ARPES) has advanced significantly in its ability to probe more observables and simultaneously generate multi-dimensional datasets. These advances present new challenges in data acquisition, processing, and analysis. Machine learning (ML) models can drastically reduce the workload of experimentalists; however, the lack of training data for ML -- and in particular deep learning -- is a significant obstacle. In this work, we introduce an open-source synthetic ARPES spectra simulator - aurelia - for the purpose of generating the large datasets necessary to train ML models. As a demonstration, we train a convolutional neural network to evaluate ARPES spectra quality -- a critical task performed during the initial sample alignment phase of the experiment. We benchmark the simulation-trained model against actual experimental data and find that it can assess the spectra quality more accurately than human analysis, and swiftly identify the optimal measurement region with high precision. Thus, we establish that simulated ARPES spectra can be an effective proxy for experimental spectra in training ML models.

Ссылки и действия

Связанные статьи

Surface Stability Modeling with Universal Machine Learning Interatomic Potential...

## Контекст Машинное обучение взаимодействия атомов (MLIP) является выразительным достижением в области компьютерных нау...

2025-09-02

FIRE-GNN: Force-informed, Relaxed Equivariance Graph Neural Network for Rapid an...

#### Контекст Определение рабочей функции и энергии трещины поверхности является ключевым заданием при разработке матери...

2025-08-26

Machine Learning Time Propagators for Time-Dependent Density Functional Theory S...

#### Контекст Задача исследования — ускорение симуляций электронных динамик в рамках временной зависимой теории диффузии...

2025-08-26

Symmetry-Constrained Multi-Scale Physics-Informed Neural Networks for Graphene E...

## Контекст Определение электронных банд структур двумерных материалов является ключевым вопросом в теории кристаллов и ...

2025-08-16