Directed Evolution of Proteins via Bayesian Optimization in Embedding Space

2509.04998v1 cs.LG, q-bio.BM 2025-09-09
Авторы:

Matouš Soldát, Jiří Kléma

Резюме на русском

#### Контекст Директивная эволюция — это интерактивный лабораторный процесс разработки протеинов с улучшенными свойствами. Он включает в себя последовательную синтезирования новых вариантов белков и оценку их полезных свойств с помощью дорогостоящих и временно требующих экспериментов. Несмотря на высокую эффективность, данный подход имеет ограниченную скорость и сложность. Машинное обучение (ML) может помочь оптимизировать этот процесс, выбирая наиболее важные варианты для экспериментов, чтобы увеличить качество результатов и уменьшить количество необходимых экспериментов. На практике, существующие методы ML затрудняют достижение этих целей по причине недостаточного представления протеинов. #### Метод Мы предлагаем новый подход к директивной эволюции белков, основанный на комбинации байесовского оптимизатора (Bayesian Optimization) с информативными представлениями белков, полученными из предварительно обученного модели языка последовательностей белков (protein language model). Метод использует последовательность белка в виде входных данных, которая преобразуется в векторное представление. Затем, оптимизатор использует эти представления для выбора вариантов, которые будут протестированы в реальном мире. Это представление лучше захватывает сложные зависимости в последовательности белков, чем предшествующие методы. Мы также выделяем, что наш подход можно интегрировать с другими методами ML для дальнейшего улучшения. #### Результаты Мы проверяли наш подход на двух реальных примерах директивной эволюции белков. Наши эксперименты показали, что использование представлений в виде последовательностей в Байесовском оптимизаторе дает значительное улучшение в выборе наиболее ценных вариантов белков для экспериментов. Это привело к лучшим результатам с той же суммой выполненных экспериментов в общем. Также, мы сравнили наш подход с другими ML-методами, которые используют регрессионные модели, и продемонстрировали, что наш метод показывает лучший результат. #### Значимость Наш подход может быть использован в различных областях, включая биотехнологии, фармацевтику и биоинженерию. Он позволяет ускорить эволюцию белков, увеличивая эффективность и экономию времени и ресурсов. Это предлагает новый плацдарм для ML-методов в лабораторных экспериментах, позволяя более точно выбирать варианты для будущих экспериментов. Также, наш подход может иметь потенциал для расширения применения машинного обучения в других областях, где требуется оптимизация сложных лабораторных процессов. #### Выводы Мы представили новый подход к директивной эволюции

Abstract

Directed evolution is an iterative laboratory process of designing proteins with improved function by iteratively synthesizing new protein variants and evaluating their desired property with expensive and time-consuming biochemical screening. Machine learning methods can help select informative or promising variants for screening to increase their quality and reduce the amount of necessary screening. In this paper, we present a novel method for machine-learning-assisted directed evolution of proteins which combines Bayesian optimization with informative representation of protein variants extracted from a pre-trained protein language model. We demonstrate that the new representation based on the sequence embeddings significantly improves the performance of Bayesian optimization yielding better results with the same number of conducted screening in total. At the same time, our method outperforms the state-of-the-art machine-learning-assisted directed evolution methods with regression objective.

Ссылки и действия