Benchmarking Pretrained Molecular Embedding Models For Molecular Representation Learning
2508.06199v1
cs.LG, cs.AI
2025-08-12
Авторы:
Mateusz Praski, Jakub Adamczyk, Wojciech Czech
Резюме на русском
## Контекст
Предварительно обученные нейронные сети стали одной из наиболее активно развивающихся областей исследований в области химии и разработки медикаментов. Их представления (embeddings) широко используются в задачах предсказания молекулярных свойств, виртуального скрининга и обучения с малыми объемами данных в химии. Несмотря на появление более 50 моделей представления молекул (molecular embedding models), не существует конкретных сравнительных исследований, которые позволяют определить наиболее эффективные модели для каждого класса задач. Эта статья представляет собой первую подробную сравнительную оценку моделей представления молекул, охватывающую 25 моделей и 25 датасетов, чтобы определить, могут ли они превосходить базовую модель ECFP.
## Метод
Для сравнения 25 моделей представления молекул было проведено 15 тысяч вычислительных экспериментов. Эксперименты проводились в условиях эквивалентных ресурсов, чтобы обеспечить справедливость сравнения. Использовались 25 датасетов с разными характеристиками (масштаб, тип данных, свойства, которые можно предсказать). Модели оценивались с использованием традиционных метрик качества, таких как ROC-AUC и RMSE. Для того чтобы выявить значимость различий между моделями, был разработан специальный алгоритм Байесовского тестирования.
## Результаты
Результаты экспериментов показали, что почти все модели нейронных сетей не демонстрируют значимого превосходства над базовой моделью ECFP. Только модель CLAMP, которая также основывается на молекулярных представлениях в формате фингерпринтов, показала статистически значимое превосходство. Этот результат вызывает опасение относительно полноты и качества существующих экспериментов, которые часто не учитывают необходимую строгую оценку моделей. Обсуждаются возможные причины этого и проводятся предложения по улучшению практик в данной области.
## Значимость
Найденные результаты имеют значимые последствия для области химии и разработки медикаментов. Они подсказывают, что необходимо высококачественное и строгое тестирование моделей, чтобы избежать неконструктивных сравнений и получить более значительные выводы. Также, результаты могут повлиять на развитие новых моделей представления молекул, которые будут оптимизированы под более эффективное использование ресурсов и получения более точных предсказаний.
## Выводы
Проведенное сравнительное исследование дало важные результаты, показывающие крайне незначительное превосходство почти всех моделей представления молекул над базовой моделью ECFP. Это подчеркивает необходимость более тщательной оценки существующи
Abstract
Pretrained neural networks have attracted significant interest in chemistry
and small molecule drug design. Embeddings from these models are widely used
for molecular property prediction, virtual screening, and small data learning
in molecular chemistry. This study presents the most extensive comparison of
such models to date, evaluating 25 models across 25 datasets. Under a fair
comparison framework, we assess models spanning various modalities,
architectures, and pretraining strategies. Using a dedicated hierarchical
Bayesian statistical testing model, we arrive at a surprising result: nearly
all neural models show negligible or no improvement over the baseline ECFP
molecular fingerprint. Only the CLAMP model, which is also based on molecular
fingerprints, performs statistically significantly better than the
alternatives. These findings raise concerns about the evaluation rigor in
existing studies. We discuss potential causes, propose solutions, and offer
practical recommendations.
Ссылки и действия
Дополнительные ресурсы: