Monte Carlo Tree Diffusion with Multiple Experts for Protein Design

2509.15796v1 cs.LG, cs.AI, q-bio.BM 2025-09-23

Авторы:

Xuefeng Liu, Mingxuan Cao, Songhao Jiang, Xiao Luo, Xiaotian Duan, Mengdi Wang, Tobin R. Sosnick, Jinbo Xu, Rick Stevens

Резюме на русском

#### Контекст Проектирование белков — задача генерировать аминокислотные последовательности, которые сворачиваются в функциональные структуры с заданными свойствами. Она является ключевым заданием в биоинформатике и молекулярном дизайне. Традиционные подходы, такие как autoregressive language models с Monte Carlo Tree Search (MCTS), сталкиваются с трудностями при обработке длинных зависимостей и количественным ростом поискового пространства. Эти ограничения снижают эффективность и точность решения. Наша работа адресует эти проблемы, предлагая новый подход, который интегрирует маскованную диффузию с моделями многоэкспертного графического поиска. #### Метод Мы предлагаем **Monte Carlo Tree Diffusion with Multiple Experts (MCTD-ME)**, который сочетает диффузионные модели с многоэкспертным графическим поиском, чтобы обеспечить эффективность и точность. Маскированная диффузия служит моделью порождения последовательности, в то время как MCTS существенно расширяет поисковое пространство. В отличие от стандартных подходов, MCTD-ME использует biophysical-fidelity-enhanced diffusion для более точного роллаута. Многоэкспертный подход включает экспертов с разными способностями, которые совместно работают для более глубокой эксплорации пространства решений. Маскирование pLDDT-приоритетные регионы для расширения экспертных возможностей. Мы также предлагаем новый выбор экспертов (PH-UCT-ME), расширяющий predictive-entropy UCT для совместной работы экспертов. #### Результаты Мы проверили MCTD-ME на задаче inverse folding с помощью бенчмарков CAMEO и PDB. Наши результаты показывают, что MCTD-ME превосходит одиночные эксперты и неуправляемые базовые модели по аминокислотной аккуратности (AAR) и структурной схожести (scTM). Результаты улучшаются при увеличении длины белка и использовании нескольких экспертов. Этот подход показал себя эффективно на задачах de novo protein engineering и multi-objective molecular generation, точность и скорость в тестовых сценариях. #### Значимость Модель MCTD-ME применяется в различных областях: биоинформатическом дизайне белков, синтезе молекулярных структур, многоцелевом генерировании биологически активных молекул. Она имеет преимущества в том, что обеспечивает точность, эффективность и масштабируемость благодаря интеграции диффузионной модели и экспертных стратегий. Мы утверждаем, что наш подход является модель-агностичным и может быть применен к другим задачам, требующим высокоточного планирования в области биоинформатики. #### Выводы Мы доказали, что MCTD-ME — эффективный подход для проектирования белков, который превосходит существующие методы. Будущие исследования будут фокусиро

Abstract

The goal of protein design is to generate amino acid sequences that fold into functional structures with desired properties. Prior methods combining autoregressive language models with Monte Carlo Tree Search (MCTS) struggle with long-range dependencies and suffer from an impractically large search space. We propose MCTD-ME, Monte Carlo Tree Diffusion with Multiple Experts, which integrates masked diffusion models with tree search to enable multi-token planning and efficient exploration. Unlike autoregressive planners, MCTD-ME uses biophysical-fidelity-enhanced diffusion denoising as the rollout engine, jointly revising multiple positions and scaling to large sequence spaces. It further leverages experts of varying capacities to enrich exploration, guided by a pLDDT-based masking schedule that targets low-confidence regions while preserving reliable residues. We propose a novel multi-expert selection rule (PH-UCT-ME) extends predictive-entropy UCT to expert ensembles. On the inverse folding task (CAMEO and PDB benchmarks), MCTD-ME outperforms single-expert and unguided baselines in both sequence recovery (AAR) and structural similarity (scTM), with gains increasing for longer proteins and benefiting from multi-expert guidance. More generally, the framework is model-agnostic and applicable beyond inverse folding, including de novo protein engineering and multi-objective molecular generation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Monte Carlo Tree Diffusion with Multiple Experts for Protein Design

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Interpreting GFlowNets for Drug Discovery: Extracting Actionable Insights for Me...

STAR-VAE: Latent Variable Transformers for Scalable and Controllable Molecular G...

Atom-anchored LLMs speak Chemistry: A Retrosynthesis Demonstration

Protein as a Second Language for LLMs

From Supervision to Exploration: What Does Protein Language Model Learn During R...

Навигация