Combining feature-based approaches with graph neural networks and symbolic regression for synergistic performance and interpretability
2509.03547v1
cond-mat.mtrl-sci, cs.LG
2025-09-06
Авторы:
Rogério Almeida Gouvêa, Pierre-Paul De Breuck, Tatiane Pretto, Gian-Marco Rignanese, Marcos José Leite dos Santos
Резюме на русском
## Контекст
Материаловедение — это динамическое научное и технологическое поле, требующее сложных моделей для точных предсказаний свойств материалов. Однако существуют проблемы, связанные с недостатком прозрачности и удобоваримости действий "черных ящиков" глубоких нейронных сетей. Эти модели часто предлагают высокую точность, но их результаты трудно интерпретировать и поддаются скептическому взгляду в области материаловедения, где физическая транспарентность критическа. Целью данного исследования является создание системы, которая объединит в себе преимущества традиционных, прозрачных моделей и мощности машинного обучения.
## Метод
Модель MatterVial представляет собой гибридную архитектуру, которая объединяет три ключевых компонента. Во-первых, интеграция глубинных нейронных сетей: графовых сетей (GNN) структуры, состава и обхода, а также экивариантных сетей для предобработки данных. Во-вторых, генерация дополнительных фичей с использованием символической регрессии. В-третьих, создание интегрированного модуля интерпретированности, который использует симуляционные модели и символическую регрессию для преобразования нейронных дескрипторов в удобочитаемые формулы. Этот подход позволяет объединить точность глубоких моделей с транспарентностью физической модели.
## Результаты
Работа была проверена на задачах Matbench — классических упражнениях по предсказанию свойств материалов. Добавление новых фичей и интеграция с GNN позволили MatterVial существенно улучшить точность в сравнении с MODNet, уменьшив ошибки примерно на 40% для нескольких задач. Благодаря интегрированному модулю интерпретации, модель не только оптимизирует прогнозы, но и предоставляет физически обоснованные формулы для объяснения своих результатов.
## Значимость
MatterVial может использоваться в различных областях, таких как проектирование материалов, анализ микроструктур и автоматизированные методы проектирования. Она объединяет точность и транспарентность, что делает ее полезной для исследователей, требующих понимания процессов, а не только результатов. Эта модель также может ускорить процессы оптимизации, предоставляя инструменты для более автоматизированных и целенаправленных исследований.
## Выводы
MatterVial является прорывом в области материаловедения и машинного обучения. Она предлагает современное решение для моделирования свойств материалов, объединяя точность глубоких нейронных сетей и транспарентность традиционных моделей. Будущие исследования будут фокусироваться на расширени
Abstract
This study introduces MatterVial, an innovative hybrid framework for
feature-based machine learning in materials science. MatterVial expands the
feature space by integrating latent representations from a diverse suite of
pretrained graph neural network (GNN) models including: structure-based
(MEGNet), composition-based (ROOST), and equivariant (ORB) graph networks, with
computationally efficient, GNN-approximated descriptors and novel features from
symbolic regression. Our approach combines the chemical transparency of
traditional feature-based models with the predictive power of deep learning
architectures. When augmenting the feature-based model MODNet on Matbench
tasks, this method yields significant error reductions and elevates its
performance to be competitive with, and in several cases superior to,
state-of-the-art end-to-end GNNs, with accuracy increases exceeding 40% for
multiple tasks. An integrated interpretability module, employing surrogate
models and symbolic regression, decodes the latent GNN-derived descriptors into
explicit, physically meaningful formulas. This unified framework advances
materials informatics by providing a high-performance, transparent tool that
aligns with the principles of explainable AI, paving the way for more targeted
and autonomous materials discovery.