FragmentGPT: A Unified GPT Model for Fragment Growing, Linking, and Merging in Molecular Design
2509.11044v1
cs.LG, cs.AI, q-bio.BM
2025-09-17
Авторы:
Xuefeng Liu, Songhao Jiang, Qinan Huang, Tinson Xu, Ian Foster, Mengdi Wang, Hening Lin, Jinbo Xu, Rick Stevens
Резюме на русском
#### Контекст
Fragment-Based Drug Discovery (FBDD) является одной из наиболее популярных подходов в ранней фазе разработки лекарственных препаратов. Однако проектирование эффективных межфрагментных связок (linkers), объединяющих различные молекулярные фрагменты в химически и фармакологически возможные кандидаты, остается сложной задачей. Эта сложность усиливается при наличии в фрагментах структурных дубликатов, например, повторяющихся колец, которые не могут быть решены простым добавлением или удалением атомов или связей. Такие проблемы требуют создания универсального и эффективного подхода, который мог бы упростить процесс создания новых лекарственных препаратов.
#### Метод
FragmentGPT представляет собой развитый модельный подход, который основывается на технологии трансформеров (GPT) и применяет два основных компонента. В первую очередь, он использует новую стратегию предобучения (pre-training), основанную на энергетических моделях, которая позволяет модели растить, связывать и объединять фрагменты. Во вторую очередь, FragmentGPT включает новую методику обучения с подкреплением (Reward Ranked Alignment with Expert Exploration, RAE), которая объединяет три важных элемента: учение под экспертом, разнообразие данных для оптимизации целей, и ориентацию на многоцелевую оптимизацию. Это позволяет модели не только строить связи, но и устранять дублированные молекулярные структуры, чтобы создавать более оптимальные лекарственные препараты.
#### Результаты
Исследователи проводили эксперименты на реальных данных из области лекарственной разработки, ориентированных на лечение рака. Модель FragmentGPT демонстрировала высокую точность и эффективность в создании связок, которые удаляли дублированные структуры и оптимизировали важные фармакологические характеристики. Набор данных включал различные сценарии, в том числе сложные случаи с несколькими взаимосвязанными фрагментами. Эксперименты показали, что FragmentGPT превосходит существующие подходы в своей способности генерировать качественные молекулярные структуры с минимальными дубликатами и оптимальными химическими свойствами.
#### Значимость
FragmentGPT может применяться в различных областях лекарственной разработки, включая создание новых лекарств и оптимизацию существующих препаратов. Он предоставляет существенные преимущества, такие как возможность удаления дубликатов структур, улучшение химических свойств и увеличение точности в разработке медикаментов. Такой подход может существенно упростить процесс разработки лекарственных средств, повысить эффективность, а также снизить затраты на исследования.
#### Выводы
FragmentGPT представляет собой первый у
Abstract
Fragment-Based Drug Discovery (FBDD) is a popular approach in early drug
development, but designing effective linkers to combine disconnected molecular
fragments into chemically and pharmacologically viable candidates remains
challenging. Further complexity arises when fragments contain structural
redundancies, like duplicate rings, which cannot be addressed by simply adding
or removing atoms or bonds. To address these challenges in a unified framework,
we introduce FragmentGPT, which integrates two core components: (1) a novel
chemically-aware, energy-based bond cleavage pre-training strategy that equips
the GPT-based model with fragment growing, linking, and merging capabilities,
and (2) a novel Reward Ranked Alignment with Expert Exploration (RAE) algorithm
that combines expert imitation learning for diversity enhancement, data
selection and augmentation for Pareto and composite score optimality, and
Supervised Fine-Tuning (SFT) to align the learner policy with multi-objective
goals. Conditioned on fragment pairs, FragmentGPT generates linkers that
connect diverse molecular subunits while simultaneously optimizing for multiple
pharmaceutical goals. It also learns to resolve structural redundancies-such as
duplicated fragments-through intelligent merging, enabling the synthesis of
optimized molecules. FragmentGPT facilitates controlled, goal-driven molecular
assembly. Experiments and ablation studies on real-world cancer datasets
demonstrate its ability to generate chemically valid, high-quality molecules
tailored for downstream drug discovery tasks.
Ссылки и действия
Дополнительные ресурсы: