A Foundation Chemical Language Model for Comprehensive Fragment-Based Drug Discovery

2509.19586v1 cs.LG, cs.AI, q-bio.BM 2025-09-26
Авторы:

Alexander Ho, Sukyeong Lee, Francis T. F. Tsai

Резюме на русском

#### Контекст Одна из основных задач в современной биологии и химии — разработка новых лекарственных препаратов. Одним из подходов является **фрагментно-ориентированная стратегия**, где основным элементом становятся молекулярные фрагменты, которые могут быть соединены в более сложные структуры. Однако существует значительная проблема: большая часть существующих моделей не может генерировать фрагменты с большой точностью и широким покрытием химического пространства. Это затрудняет выявление потенциальных лекарственных структур. #### Метод Разработана модель FragAtlas-62M, основанная на **GPT-2** с 42,7 миллионами параметров. Модель обучалась на самой большой доступной базе данных — **ZINC-22 fragment subset**, содержащей более 62 миллионов молекул. Использовалась архитектура с генеративным моделированием, позволяющая генерировать молекулы с высокой точностью. Эталонная метрика — 99,9% достоверности в генерировании валидных фрагментов. Алгоритм проверялся на 12 различных химических описаниях и тремя различными методами хеширования, что подтвердило высокую точность и корректность полученных результатов. #### Результаты Использовались 12 химических описаний и три различных метода проверки, чтобы оценить качество генерируемых фрагментов. Было получено, что 99,9% фрагментов являются валидными. Было выявлено, что 53,6% из них совпадают с уже существующими фрагментами, а 22% — новые, но уже имеющие практическую значимость. Это указывает на успешное покрытие химического пространства и подтверждение модели как эффективного инструмента для разработки новых лекарств. #### Значимость FragAtlas-62M может применяться в **фармацевтических исследованиях, фрагментно-ориентированной генерации новых лекарств и изучении химических связей**. Он обеспечивает широкое покрытие химического пространства, что позволяет повысить точность найденных решений. Его могут использовать исследователи для быстрого генерирования новых молекул, что ускорит процесс решения важных задач в области лекарственного производства. #### Выводы Разработанная модель FragAtlas-62M достигла рекордных показателей в генерировании молекул с высокой точностью и покрытием химического пространства. Ее успех подтверждает значимость применения фундаментальных моделей в химических исследованиях. Дальнейшим направлением будет расширение модели для добавления новых функций и ее применение в реальных проектах разработки новых лекарств.

Abstract

We introduce FragAtlas-62M, a specialized foundation model trained on the largest fragment dataset to date. Built on the complete ZINC-22 fragment subset comprising over 62 million molecules, it achieves unprecedented coverage of fragment chemical space. Our GPT-2 based model (42.7M parameters) generates 99.90% chemically valid fragments. Validation across 12 descriptors and three fingerprint methods shows generated fragments closely match the training distribution (all effect sizes < 0.4). The model retains 53.6% of known ZINC fragments while producing 22% novel structures with practical relevance. We release FragAtlas-62M with training code, preprocessed data, documentation, and model weights to accelerate adoption.

Ссылки и действия