A Foundation Chemical Language Model for Comprehensive Fragment-Based Drug Discovery
2509.19586v1
cs.LG, cs.AI, q-bio.BM
2025-09-26
Авторы:
Alexander Ho, Sukyeong Lee, Francis T. F. Tsai
Резюме на русском
#### Контекст
Одна из основных задач в современной биологии и химии — разработка новых лекарственных препаратов. Одним из подходов является **фрагментно-ориентированная стратегия**, где основным элементом становятся молекулярные фрагменты, которые могут быть соединены в более сложные структуры. Однако существует значительная проблема: большая часть существующих моделей не может генерировать фрагменты с большой точностью и широким покрытием химического пространства. Это затрудняет выявление потенциальных лекарственных структур.
#### Метод
Разработана модель FragAtlas-62M, основанная на **GPT-2** с 42,7 миллионами параметров. Модель обучалась на самой большой доступной базе данных — **ZINC-22 fragment subset**, содержащей более 62 миллионов молекул. Использовалась архитектура с генеративным моделированием, позволяющая генерировать молекулы с высокой точностью. Эталонная метрика — 99,9% достоверности в генерировании валидных фрагментов. Алгоритм проверялся на 12 различных химических описаниях и тремя различными методами хеширования, что подтвердило высокую точность и корректность полученных результатов.
#### Результаты
Использовались 12 химических описаний и три различных метода проверки, чтобы оценить качество генерируемых фрагментов. Было получено, что 99,9% фрагментов являются валидными. Было выявлено, что 53,6% из них совпадают с уже существующими фрагментами, а 22% — новые, но уже имеющие практическую значимость. Это указывает на успешное покрытие химического пространства и подтверждение модели как эффективного инструмента для разработки новых лекарств.
#### Значимость
FragAtlas-62M может применяться в **фармацевтических исследованиях, фрагментно-ориентированной генерации новых лекарств и изучении химических связей**. Он обеспечивает широкое покрытие химического пространства, что позволяет повысить точность найденных решений. Его могут использовать исследователи для быстрого генерирования новых молекул, что ускорит процесс решения важных задач в области лекарственного производства.
#### Выводы
Разработанная модель FragAtlas-62M достигла рекордных показателей в генерировании молекул с высокой точностью и покрытием химического пространства. Ее успех подтверждает значимость применения фундаментальных моделей в химических исследованиях. Дальнейшим направлением будет расширение модели для добавления новых функций и ее применение в реальных проектах разработки новых лекарств.
Abstract
We introduce FragAtlas-62M, a specialized foundation model trained on the
largest fragment dataset to date. Built on the complete ZINC-22 fragment subset
comprising over 62 million molecules, it achieves unprecedented coverage of
fragment chemical space. Our GPT-2 based model (42.7M parameters) generates
99.90% chemically valid fragments. Validation across 12 descriptors and three
fingerprint methods shows generated fragments closely match the training
distribution (all effect sizes < 0.4). The model retains 53.6% of known ZINC
fragments while producing 22% novel structures with practical relevance. We
release FragAtlas-62M with training code, preprocessed data, documentation, and
model weights to accelerate adoption.
Ссылки и действия
Дополнительные ресурсы: