Monte Carlo Tree Diffusion with Multiple Experts for Protein Design
2509.15796v1
cs.LG, cs.AI, q-bio.BM
2025-09-23
Авторы:
Xuefeng Liu, Mingxuan Cao, Songhao Jiang, Xiao Luo, Xiaotian Duan, Mengdi Wang, Tobin R. Sosnick, Jinbo Xu, Rick Stevens
Резюме на русском
#### Контекст
Проектирование белков — задача генерировать аминокислотные последовательности, которые сворачиваются в функциональные структуры с заданными свойствами. Она является ключевым заданием в биоинформатике и молекулярном дизайне. Традиционные подходы, такие как autoregressive language models с Monte Carlo Tree Search (MCTS), сталкиваются с трудностями при обработке длинных зависимостей и количественным ростом поискового пространства. Эти ограничения снижают эффективность и точность решения. Наша работа адресует эти проблемы, предлагая новый подход, который интегрирует маскованную диффузию с моделями многоэкспертного графического поиска.
#### Метод
Мы предлагаем **Monte Carlo Tree Diffusion with Multiple Experts (MCTD-ME)**, который сочетает диффузионные модели с многоэкспертным графическим поиском, чтобы обеспечить эффективность и точность. Маскированная диффузия служит моделью порождения последовательности, в то время как MCTS существенно расширяет поисковое пространство. В отличие от стандартных подходов, MCTD-ME использует biophysical-fidelity-enhanced diffusion для более точного роллаута. Многоэкспертный подход включает экспертов с разными способностями, которые совместно работают для более глубокой эксплорации пространства решений. Маскирование pLDDT-приоритетные регионы для расширения экспертных возможностей. Мы также предлагаем новый выбор экспертов (PH-UCT-ME), расширяющий predictive-entropy UCT для совместной работы экспертов.
#### Результаты
Мы проверили MCTD-ME на задаче inverse folding с помощью бенчмарков CAMEO и PDB. Наши результаты показывают, что MCTD-ME превосходит одиночные эксперты и неуправляемые базовые модели по аминокислотной аккуратности (AAR) и структурной схожести (scTM). Результаты улучшаются при увеличении длины белка и использовании нескольких экспертов. Этот подход показал себя эффективно на задачах de novo protein engineering и multi-objective molecular generation, точность и скорость в тестовых сценариях.
#### Значимость
Модель MCTD-ME применяется в различных областях: биоинформатическом дизайне белков, синтезе молекулярных структур, многоцелевом генерировании биологически активных молекул. Она имеет преимущества в том, что обеспечивает точность, эффективность и масштабируемость благодаря интеграции диффузионной модели и экспертных стратегий. Мы утверждаем, что наш подход является модель-агностичным и может быть применен к другим задачам, требующим высокоточного планирования в области биоинформатики.
#### Выводы
Мы доказали, что MCTD-ME — эффективный подход для проектирования белков, который превосходит существующие методы. Будущие исследования будут фокусиро
Abstract
The goal of protein design is to generate amino acid sequences that fold into
functional structures with desired properties. Prior methods combining
autoregressive language models with Monte Carlo Tree Search (MCTS) struggle
with long-range dependencies and suffer from an impractically large search
space. We propose MCTD-ME, Monte Carlo Tree Diffusion with Multiple Experts,
which integrates masked diffusion models with tree search to enable multi-token
planning and efficient exploration. Unlike autoregressive planners, MCTD-ME
uses biophysical-fidelity-enhanced diffusion denoising as the rollout engine,
jointly revising multiple positions and scaling to large sequence spaces. It
further leverages experts of varying capacities to enrich exploration, guided
by a pLDDT-based masking schedule that targets low-confidence regions while
preserving reliable residues. We propose a novel multi-expert selection rule
(PH-UCT-ME) extends predictive-entropy UCT to expert ensembles. On the inverse
folding task (CAMEO and PDB benchmarks), MCTD-ME outperforms single-expert and
unguided baselines in both sequence recovery (AAR) and structural similarity
(scTM), with gains increasing for longer proteins and benefiting from
multi-expert guidance. More generally, the framework is model-agnostic and
applicable beyond inverse folding, including de novo protein engineering and
multi-objective molecular generation.
Ссылки и действия
Дополнительные ресурсы: