Optimal message passing for molecular prediction is simple, attentive and spatial

2509.10871v1 cs.LG, cs.AI, q-bio.BM 2025-09-17
Авторы:

Alma C. Castaneda-Leautaud, Rommie E. Amaro

Резюме на русском

#### Контекст Молекулярные свойства, такие как активность и токсичность, широко используются в науке, промышленности и медицине. Однако предсказание этих свойств часто требует глубоких анализов, дорогостоящих экспериментов и многочисленных вычислений. Нейронные сети с пробросом сообщений (Message-Passing Neural Networks, MPNNs) позволили улучшить прогностическую точность за счет использования графов, характеризующих молекулы. Несмотря на эти успехи, существуют проблемы, такие как высокая сложность моделей, требующая больших ресурсов для обучения и использования. Было показано, что упрощение архитектуры модели и использование более широкого спектра дескрипторов графа могут повысить точность предсказаний и уменьшить накладные расходы на вычисления. #### Метод В этой работе предложены модели с простой, акцентуированной и пространственной обработкой сообщений для молекулярных предсказаний. Мы разработали архитектуры, которые добиваются самого высокого качества прогнозов, превосходящих даже сложные сети, обученные на внешних базах данных. Мы использовали минималистичные формулы сообщений, убрав самопонимание узлов и ограничив активность вывода аннотаций. Мы проанализировали разнообразие данных и определили, что структурная разнообразность может влиять на необходимость дополнительных компонент в MPNNs. Также мы исследовали влияние добавления пространственных признаков и работы с 3D-графами. Наши результаты показали, что 2D-графы, дополненные 3D-дескрипторами, дают точность, равную или превосходящей 3D-представления, при этом сокращая вычислительные затраты на 50%. #### Результаты Мы провели эксперименты на нескольких датасетах, сравнивая наши архитектуры с классическими MPNNs. Наши модели показали лучшие результаты в классификации и регрессии молекулярных свойств с помощью бидирекционального проброса сообщений с аннотациями. Мы подтвердили, что нормализация конвейера не всегда улучшает прогностическую точность во всех датасетах. Было показано, что упрощенные модели, убравшие самопонимание узлов, дают более высокую классовую разделяемость. Мы также проанализировали влияние 3D-признаков и пространственных функций, показав, что 2D-графы с 3D-дескрипторами обеспечивают высокую точность с минимальным трудоемкостным вкладом. #### Значимость Наши модели могут применяться в сферах, требующих быстрого и точного предсказания молекулярных свойств, таких как химическая синтезная программа, фармакология и химический разработка. Они предлагают существенное сокращение вычислительных затрат б

Abstract

Strategies to improve the predicting performance of Message-Passing Neural-Networks for molecular property predictions can be achieved by simplifying how the message is passed and by using descriptors that capture multiple aspects of molecular graphs. In this work, we designed model architectures that achieved state-of-the-art performance, surpassing more complex models such as those pre-trained on external databases. We assessed dataset diversity to complement our performance results, finding that structural diversity influences the need for additional components in our MPNNs and feature sets. In most datasets, our best architecture employs bidirectional message-passing with an attention mechanism, applied to a minimalist message formulation that excludes self-perception, highlighting that relatively simpler models, compared to classical MPNNs, yield higher class separability. In contrast, we found that convolution normalization factors do not benefit the predictive power in all the datasets tested. This was corroborated in both global and node-level outputs. Additionally, we analyzed the influence of both adding spatial features and working with 3D graphs, finding that 2D molecular graphs are sufficient when complemented with appropriately chosen 3D descriptors. This approach not only preserves predictive performance but also reduces computational cost by over 50%, making it particularly advantageous for high-throughput screening campaigns.

Ссылки и действия