Directed Evolution of Proteins via Bayesian Optimization in Embedding Space
2509.04998v1
cs.LG, q-bio.BM
2025-09-09
Авторы:
Matouš Soldát, Jiří Kléma
Резюме на русском
#### Контекст
Директивная эволюция — это интерактивный лабораторный процесс разработки протеинов с улучшенными свойствами. Он включает в себя последовательную синтезирования новых вариантов белков и оценку их полезных свойств с помощью дорогостоящих и временно требующих экспериментов. Несмотря на высокую эффективность, данный подход имеет ограниченную скорость и сложность. Машинное обучение (ML) может помочь оптимизировать этот процесс, выбирая наиболее важные варианты для экспериментов, чтобы увеличить качество результатов и уменьшить количество необходимых экспериментов. На практике, существующие методы ML затрудняют достижение этих целей по причине недостаточного представления протеинов.
#### Метод
Мы предлагаем новый подход к директивной эволюции белков, основанный на комбинации байесовского оптимизатора (Bayesian Optimization) с информативными представлениями белков, полученными из предварительно обученного модели языка последовательностей белков (protein language model). Метод использует последовательность белка в виде входных данных, которая преобразуется в векторное представление. Затем, оптимизатор использует эти представления для выбора вариантов, которые будут протестированы в реальном мире. Это представление лучше захватывает сложные зависимости в последовательности белков, чем предшествующие методы. Мы также выделяем, что наш подход можно интегрировать с другими методами ML для дальнейшего улучшения.
#### Результаты
Мы проверяли наш подход на двух реальных примерах директивной эволюции белков. Наши эксперименты показали, что использование представлений в виде последовательностей в Байесовском оптимизаторе дает значительное улучшение в выборе наиболее ценных вариантов белков для экспериментов. Это привело к лучшим результатам с той же суммой выполненных экспериментов в общем. Также, мы сравнили наш подход с другими ML-методами, которые используют регрессионные модели, и продемонстрировали, что наш метод показывает лучший результат.
#### Значимость
Наш подход может быть использован в различных областях, включая биотехнологии, фармацевтику и биоинженерию. Он позволяет ускорить эволюцию белков, увеличивая эффективность и экономию времени и ресурсов. Это предлагает новый плацдарм для ML-методов в лабораторных экспериментах, позволяя более точно выбирать варианты для будущих экспериментов. Также, наш подход может иметь потенциал для расширения применения машинного обучения в других областях, где требуется оптимизация сложных лабораторных процессов.
#### Выводы
Мы представили новый подход к директивной эволюции
Abstract
Directed evolution is an iterative laboratory process of designing proteins
with improved function by iteratively synthesizing new protein variants and
evaluating their desired property with expensive and time-consuming biochemical
screening. Machine learning methods can help select informative or promising
variants for screening to increase their quality and reduce the amount of
necessary screening. In this paper, we present a novel method for
machine-learning-assisted directed evolution of proteins which combines
Bayesian optimization with informative representation of protein variants
extracted from a pre-trained protein language model. We demonstrate that the
new representation based on the sequence embeddings significantly improves the
performance of Bayesian optimization yielding better results with the same
number of conducted screening in total. At the same time, our method
outperforms the state-of-the-art machine-learning-assisted directed evolution
methods with regression objective.
Ссылки и действия
Дополнительные ресурсы: