Benchmarking Pretrained Molecular Embedding Models For Molecular Representation Learning

2508.06199v1 cs.LG, cs.AI 2025-08-12
Авторы:

Mateusz Praski, Jakub Adamczyk, Wojciech Czech

Резюме на русском

## Контекст Предварительно обученные нейронные сети стали одной из наиболее активно развивающихся областей исследований в области химии и разработки медикаментов. Их представления (embeddings) широко используются в задачах предсказания молекулярных свойств, виртуального скрининга и обучения с малыми объемами данных в химии. Несмотря на появление более 50 моделей представления молекул (molecular embedding models), не существует конкретных сравнительных исследований, которые позволяют определить наиболее эффективные модели для каждого класса задач. Эта статья представляет собой первую подробную сравнительную оценку моделей представления молекул, охватывающую 25 моделей и 25 датасетов, чтобы определить, могут ли они превосходить базовую модель ECFP. ## Метод Для сравнения 25 моделей представления молекул было проведено 15 тысяч вычислительных экспериментов. Эксперименты проводились в условиях эквивалентных ресурсов, чтобы обеспечить справедливость сравнения. Использовались 25 датасетов с разными характеристиками (масштаб, тип данных, свойства, которые можно предсказать). Модели оценивались с использованием традиционных метрик качества, таких как ROC-AUC и RMSE. Для того чтобы выявить значимость различий между моделями, был разработан специальный алгоритм Байесовского тестирования. ## Результаты Результаты экспериментов показали, что почти все модели нейронных сетей не демонстрируют значимого превосходства над базовой моделью ECFP. Только модель CLAMP, которая также основывается на молекулярных представлениях в формате фингерпринтов, показала статистически значимое превосходство. Этот результат вызывает опасение относительно полноты и качества существующих экспериментов, которые часто не учитывают необходимую строгую оценку моделей. Обсуждаются возможные причины этого и проводятся предложения по улучшению практик в данной области. ## Значимость Найденные результаты имеют значимые последствия для области химии и разработки медикаментов. Они подсказывают, что необходимо высококачественное и строгое тестирование моделей, чтобы избежать неконструктивных сравнений и получить более значительные выводы. Также, результаты могут повлиять на развитие новых моделей представления молекул, которые будут оптимизированы под более эффективное использование ресурсов и получения более точных предсказаний. ## Выводы Проведенное сравнительное исследование дало важные результаты, показывающие крайне незначительное превосходство почти всех моделей представления молекул над базовой моделью ECFP. Это подчеркивает необходимость более тщательной оценки существующи

Abstract

Pretrained neural networks have attracted significant interest in chemistry and small molecule drug design. Embeddings from these models are widely used for molecular property prediction, virtual screening, and small data learning in molecular chemistry. This study presents the most extensive comparison of such models to date, evaluating 25 models across 25 datasets. Under a fair comparison framework, we assess models spanning various modalities, architectures, and pretraining strategies. Using a dedicated hierarchical Bayesian statistical testing model, we arrive at a surprising result: nearly all neural models show negligible or no improvement over the baseline ECFP molecular fingerprint. Only the CLAMP model, which is also based on molecular fingerprints, performs statistically significantly better than the alternatives. These findings raise concerns about the evaluation rigor in existing studies. We discuss potential causes, propose solutions, and offer practical recommendations.

Ссылки и действия