FragmentGPT: A Unified GPT Model for Fragment Growing, Linking, and Merging in Molecular Design

2509.11044v1 cs.LG, cs.AI, q-bio.BM 2025-09-17
Авторы:

Xuefeng Liu, Songhao Jiang, Qinan Huang, Tinson Xu, Ian Foster, Mengdi Wang, Hening Lin, Jinbo Xu, Rick Stevens

Резюме на русском

#### Контекст Fragment-Based Drug Discovery (FBDD) является одной из наиболее популярных подходов в ранней фазе разработки лекарственных препаратов. Однако проектирование эффективных межфрагментных связок (linkers), объединяющих различные молекулярные фрагменты в химически и фармакологически возможные кандидаты, остается сложной задачей. Эта сложность усиливается при наличии в фрагментах структурных дубликатов, например, повторяющихся колец, которые не могут быть решены простым добавлением или удалением атомов или связей. Такие проблемы требуют создания универсального и эффективного подхода, который мог бы упростить процесс создания новых лекарственных препаратов. #### Метод FragmentGPT представляет собой развитый модельный подход, который основывается на технологии трансформеров (GPT) и применяет два основных компонента. В первую очередь, он использует новую стратегию предобучения (pre-training), основанную на энергетических моделях, которая позволяет модели растить, связывать и объединять фрагменты. Во вторую очередь, FragmentGPT включает новую методику обучения с подкреплением (Reward Ranked Alignment with Expert Exploration, RAE), которая объединяет три важных элемента: учение под экспертом, разнообразие данных для оптимизации целей, и ориентацию на многоцелевую оптимизацию. Это позволяет модели не только строить связи, но и устранять дублированные молекулярные структуры, чтобы создавать более оптимальные лекарственные препараты. #### Результаты Исследователи проводили эксперименты на реальных данных из области лекарственной разработки, ориентированных на лечение рака. Модель FragmentGPT демонстрировала высокую точность и эффективность в создании связок, которые удаляли дублированные структуры и оптимизировали важные фармакологические характеристики. Набор данных включал различные сценарии, в том числе сложные случаи с несколькими взаимосвязанными фрагментами. Эксперименты показали, что FragmentGPT превосходит существующие подходы в своей способности генерировать качественные молекулярные структуры с минимальными дубликатами и оптимальными химическими свойствами. #### Значимость FragmentGPT может применяться в различных областях лекарственной разработки, включая создание новых лекарств и оптимизацию существующих препаратов. Он предоставляет существенные преимущества, такие как возможность удаления дубликатов структур, улучшение химических свойств и увеличение точности в разработке медикаментов. Такой подход может существенно упростить процесс разработки лекарственных средств, повысить эффективность, а также снизить затраты на исследования. #### Выводы FragmentGPT представляет собой первый у

Abstract

Fragment-Based Drug Discovery (FBDD) is a popular approach in early drug development, but designing effective linkers to combine disconnected molecular fragments into chemically and pharmacologically viable candidates remains challenging. Further complexity arises when fragments contain structural redundancies, like duplicate rings, which cannot be addressed by simply adding or removing atoms or bonds. To address these challenges in a unified framework, we introduce FragmentGPT, which integrates two core components: (1) a novel chemically-aware, energy-based bond cleavage pre-training strategy that equips the GPT-based model with fragment growing, linking, and merging capabilities, and (2) a novel Reward Ranked Alignment with Expert Exploration (RAE) algorithm that combines expert imitation learning for diversity enhancement, data selection and augmentation for Pareto and composite score optimality, and Supervised Fine-Tuning (SFT) to align the learner policy with multi-objective goals. Conditioned on fragment pairs, FragmentGPT generates linkers that connect diverse molecular subunits while simultaneously optimizing for multiple pharmaceutical goals. It also learns to resolve structural redundancies-such as duplicated fragments-through intelligent merging, enabling the synthesis of optimized molecules. FragmentGPT facilitates controlled, goal-driven molecular assembly. Experiments and ablation studies on real-world cancer datasets demonstrate its ability to generate chemically valid, high-quality molecules tailored for downstream drug discovery tasks.

Ссылки и действия