Unsupervised Atomic Data Mining via Multi-Kernel Graph Autoencoders for Machine Learning Force Fields

2509.12358v1 cs.LG, cond-mat.mtrl-sci 2025-09-18

Авторы:

Hong Sun, Joshua A. Vita, Amit Samanta, Vincenzo Lordi

Резюме на русском

#### Контекст Исследование рассматривает область атомных данных в машинном обучении, специфичную для силовых полей. Одна из его ключевых проблем — преодоление семплинговой биаса при сборе данных, который может привести к переобучению моделей и неточным результатам. Традиционные методы, такие как кластеризация или приемление, часто неэффективны в высокомерных пространствах данных. Это приводит к утере информации или недостаточной разнообразию данных. Формирование составных и равномерных данных требует новых алгоритмов, которые могут эффективно обрабатывать высокомерные данные без потери точности или важности. #### Метод Предлагается модель Multi-kernel Edge Attention-based Graph Autoencoder (MEAGraph), основывающаяся на графовых автокодировщиках с многоядерными линейными трансформациями и аттестацией сообщений. Этот подход не требует меток данных и применяет несколько графовых преобразований для получения точных свойств атомных окружений. Аттестация сообщений позволяет усилить важные связи в графе, уменьшая шум и обеспечивая компактное представление. Модель использует многоядерную архитектуру для эффективного представления высокомерных данных и их анализа. #### Результаты Исследование проводилось на данных для моделирования ниобия, тантала и железа. Результаты показали, что MEAGraph эффективно группирует атомы с похожими окружениями, определяя ключевые регионы на потенциальной энергетической поверхности. Эффективность модели продемонстрирована в анализе и кластеризации, а также в удалении семплингового биаса. Отбор данных показал улучшение точности и общности моделей силовых полей, снижая влияние семплингового биаса. #### Значимость MEAGraph применим в различных областях, включая химию, материаловедение и синтетические исследования. Он позволяет создавать более равномерные и целостные данные, улучшая результаты моделирования и предсказания. Модель эффективно решает проблему семплингового биаса, уменьшая необходимость вручную исправлять данные. Это ведет к более устойчивым и точным моделям, которые могут экономить ресурсы в процессе моделирования. #### Выводы MEAGraph доказал свою эффективность в группировке атомных окружений и удалении семплингового биаса. Будущие исследования могут сфокусироваться на расширении модели для более сложных систем и интеграции с другими методами машинного обучения для силовых полей. Это может привести к более широкому применению в различных научных и технологических областях.

Abstract

Constructing a chemically diverse dataset while avoiding sampling bias is critical to training efficient and generalizable force fields. However, in computational chemistry and materials science, many common dataset generation techniques are prone to oversampling regions of the potential energy surface. Furthermore, these regions can be difficult to identify and isolate from each other or may not align well with human intuition, making it challenging to systematically remove bias in the dataset. While traditional clustering and pruning (down-sampling) approaches can be useful for this, they can often lead to information loss or a failure to properly identify distinct regions of the potential energy surface due to difficulties associated with the high dimensionality of atomic descriptors. In this work, we introduce the Multi-kernel Edge Attention-based Graph Autoencoder (MEAGraph) model, an unsupervised approach for analyzing atomic datasets. MEAGraph combines multiple linear kernel transformations with attention-based message passing to capture geometric sensitivity and enable effective dataset pruning without relying on labels or extensive training. Demonstrated applications on niobium, tantalum, and iron datasets show that MEAGraph efficiently groups similar atomic environments, allowing for the use of basic pruning techniques for removing sampling bias. This approach provides an effective method for representation learning and clustering that can be used for data analysis, outlier detection, and dataset optimization.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Unsupervised Atomic Data Mining via Multi-Kernel Graph Autoencoders for Machine Learning Force Fields

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Universally Converging Representations of Matter Across Scientific Foundation Mo...

Mofasa: A Step Change in Metal-Organic Framework Generation

Modeling and Inverse Identification of Interfacial Heat Conduction in Finite Lay...

Training-Free Active Learning Framework in Materials Science with Large Language...

PRISM: Periodic Representation with multIscale and Similarity graph Modelling fo...

Навигация