BioBO: Biology-informed Bayesian Optimization for Perturbation Design
2509.19988v1
stat.ML, cs.LG, q-bio.QM
2025-09-26
Авторы:
Yanke Li, Tianyu Cui, Tommaso Mansi, Mangal Prakash, Rui Liao
Резюме на русском
## Контекст
Оптимальное проектирование генетических пертурбаций является ключевым фактором для ускорения научных исследований в области лечения заболеваний. Однако поиск эффективных генетических взаимодействий сталкивается с тем, что геном человека представляет собой огромную вариацию потенциальных взаимодействий, что сделало его полностью экспериментально недоступным. На сегодняшний день, выбор наиболее эффективных вариантов пертурбаций осуществляется при помощи технологий, которые не включают биологические знания о структуре и функции генов. Из-за этого, многие методы могут пропускать важные взаимодействия или неэффективно использовать ресурсы. Это создает мотивацию для разработки методов, которые будут интегрировать биологические признаки в процесс поиска информативных пертурбаций.
## Метод
Метод BioBO (Biology-Informed Bayesian Optimization) использует новую парадигму, которая сочетает стандартные методы байесовской оптимизации (BO) с технологиями биологических моделей. Основной идеей является введение биологических признаков в процесс оптимизации, которые помогают лучше понять генетические взаимодействия. Таким образом, BioBO включает в свою работу моделирование многомодальных признаков генов, использование энричмент-анализа (маркировка генов по своему принадлежности к путям регуляции) и биологические предположения, чтобы улучшить стратегии поиска. Эта модель интегрирует эти признаки в алгоритмы BO, чтобы выбирать наиболее эффективные генные пертурбации, используя важные биологические знания.
## Результаты
Работа была проверена на различных публичных наборах данных, что позволило провести эксперименты и сравнить BioBO с традиционными методами байесовской оптимизации. Исследования показали, что BioBO улучшает процесс выбора генетических взаимодействий, увеличивая эффективность выбора на 25-40%. Этот подход также позволяет получать биологические выводы для выбранных вариантов пертурбаций, такие как указания на пути регуляции. Это дает более глубокое понимание того, как выбранные пертурбации могут влиять на генетические системы.
## Значимость
Метод BioBO может применяться в различных областях, таких как лечение заболеваний, разработка новых лекарств и изучение генетических систем. Его преимущества заключаются в улучшении эффективности выбора пертурбаций, увеличении скорости научных исследований, а также в возможности получения биологических выводов. Это может привести к улучшению понимания биологических систем и к более оперативному разработке новых лекарств.
## Выводы
Результаты и
Abstract
Efficient design of genomic perturbation experiments is crucial for
accelerating drug discovery and therapeutic target identification, yet
exhaustive perturbation of the human genome remains infeasible due to the vast
search space of potential genetic interactions and experimental constraints.
Bayesian optimization (BO) has emerged as a powerful framework for selecting
informative interventions, but existing approaches often fail to exploit
domain-specific biological prior knowledge. We propose Biology-Informed
Bayesian Optimization (BioBO), a method that integrates Bayesian optimization
with multimodal gene embeddings and enrichment analysis, a widely used tool for
gene prioritization in biology, to enhance surrogate modeling and acquisition
strategies. BioBO combines biologically grounded priors with acquisition
functions in a principled framework, which biases the search toward promising
genes while maintaining the ability to explore uncertain regions. Through
experiments on established public benchmarks and datasets, we demonstrate that
BioBO improves labeling efficiency by 25-40%, and consistently outperforms
conventional BO by identifying top-performing perturbations more effectively.
Moreover, by incorporating enrichment analysis, BioBO yields pathway-level
explanations for selected perturbations, offering mechanistic interpretability
that links designs to biologically coherent regulatory circuits.