Multi-domain Distribution Learning for De Novo Drug Design

2508.17815v1 cs.LG, q-bio.BM 2025-08-27
Авторы:

Arne Schneuing, Ilia Igashov, Adrian W. Dobbelstein, Thomas Castiglione, Michael Bronstein, Bruno Correia

Резюме на русском

#### Контекст Одной из наиболее сложных задач в современной фармакологии является разработка новых лекарственных средств, называемых де-ново. Эта задача включает в себя выявление новых молекул, удовлетворяющих требованиям взаимодействия с целевыми белками, а также соответствующих физико-химическим и технологическим требованиям. Традиционные подходы часто ограничиваются использованием предварительно сформированных баз данных, что затрудняет обнаружение новых решений. Текущие исследования направлены на развитие методов, позволяющих генерировать новые молекулы с помощью глубокого обучения. Однако существуют проблемы, связанные с ограниченностью моделей в учете трехмерных структур, характеристик взаимодействия, а также с отсутствием надежной оценки неопределенности. #### Метод Предложенная модель DrugFlow основывается на комбинации двух различных подходов: поточного соответствия (continuous flow matching) и марковских бриджей (Markov bridges). Эти подходы позволяют лучше учитывать трехмерные структуры и взаимодействия молекул с белками. Модель также включает в себя механизм оценки неопределенности, который может выявлять примеры, лежащие вне рассматриваемого распределения (out-of-distribution). Для улучшения сэмплинга в поиске регионов с желательными метрическими характеристиками, предлагается схема совместного выравнивания предпочтений (joint preference alignment). Это позволяет модели сосредоточиться на поиске молекул, удовлетворяющих конкретным критериям. Более того, DrugFlow расширяется для совместного сэмплинга свободных групп белков и атомов молекул, чтобы эксплуатировать совместную структуру трехмерного пространства. #### Результаты На основе многочисленных экспериментов продемонстрирована высокая эффективность DrugFlow в задачах de novo drug design. Использовались различные данные, включая большие наборы трехмерных молекул и белков. Модель демонстрирует способность генерировать молекулы с высоким уровнем соответствия требуемым характеристикам, таким как лекарственная активность и физико-химические свойства. Оценка неопределенности продемонстрировала высокую точность в определении примеров, лежащих вне распределения. Также была продемонстрирована улучшенная способность модели находить регионы с высокой метрической активностью в пространстве возможных лекарственных средств. #### Значимость Предложенный подход имеет широкие возможности применения в фармацевтической и биотехнологической отраслях. Он позволяет сократить время и стоимость разработки новых лекарственных средств, улучшить точность и эффективность се

Abstract

We introduce DrugFlow, a generative model for structure-based drug design that integrates continuous flow matching with discrete Markov bridges, demonstrating state-of-the-art performance in learning chemical, geometric, and physical aspects of three-dimensional protein-ligand data. We endow DrugFlow with an uncertainty estimate that is able to detect out-of-distribution samples. To further enhance the sampling process towards distribution regions with desirable metric values, we propose a joint preference alignment scheme applicable to both flow matching and Markov bridge frameworks. Furthermore, we extend our model to also explore the conformational landscape of the protein by jointly sampling side chain angles and molecules.

Ссылки и действия