Understanding protein function with a multimodal retrieval-augmented foundation model
2508.04724v1
q-bio.QM, cs.LG
2025-08-09
Авторы:
Timothy Fei Truong Jr, Tristan Bepler
Резюме на русском
#### Контекст
Задача понимания и функциональной оценки белков является одной из ключевых проблем в биоинформатике. Белки, являясь фундаментальными строительными блоками жизни, определяют многие аспекты клеточной функции и развития организма. Их функциональная оценка требует понимания структуры, последовательности, модификаций и взаимодействий. Однако существующие подходы часто сталкиваются с ограничениями в объеме данных, сложности в оценке эволюционных ограничений и недостаточной точностью в предсказании эффектов мутаций. Эти проблемы подчеркивают необходимость развития более точных и универсальных моделей для прогнозирования и понимания белковой функции.
#### Метод
PoET-2 (Protein Evolutionary Transformer 2) представляет собой мультимодальную модель, основанную на архитектуре трансфоррера с реализацией ретриев-оверджа (retrieval-augmentation). Она объединяет в себе базу знаний по эволюционным ограничениям и структурным условиям для белков. Модель включает в себя трансфоррмерский кодировщик с эквивалентностью к порядку последовательностей и дуальный декодер с целями обучения как полностью генерирующей модели, так и модели, основанной на маскированном обучении. Это позволяет PoET-2 работать в генеративном и бибидирекциональном режимах. Модель обучается на огромном количестве белковых последовательностей и эволюционных данных, чтобы обеспечить высокую точность в предсказании свойств белков.
#### Результаты
Работа была проверена на множестве задач, включая нулевое предсказание эффектов мутаций (zero-shot variant effect prediction), где PoET-2 показала значительные улучшения по сравнению с предыдущими моделями. Она эффективно обрабатывает задачи с множеством мутаций и инсерциями-делениями (indels), что обычно является сложной для моделей. Также PoET-2 показала выдающиеся результаты в случае небольших обучающих наборов данных, демонстрируя свою эффективность в обучении последовательности-функция (sequence-to-function). Эти результаты указывают на то, что PoET-2 может значительно повысить точность в задачах понимания и прогнозирования белковой функции.
#### Значимость
Потенциал PoET-2 заключается в своем применении в различных областях биоинформатики, включая:
- Определение эффектов мутаций для улучшения лечения индивидуальных больных.
- Разработка белков с новыми функциями для биотехнологий.
- Оценка потенциального воздействия мутаций в рамках генетических исследований.
Преимущества PoET-2 включают усовершенствованную точность предсказания, универсальность и возможность использования в различных
Abstract
Protein language models (PLMs) learn probability distributions over natural
protein sequences. By learning from hundreds of millions of natural protein
sequences, protein understanding and design capabilities emerge. Recent works
have shown that scaling these models improves structure prediction, but does
not seem to improve mutation understanding and representation quality for
protein function prediction. We introduce PoET-2, a multimodal,
retrieval-augmented protein foundation model that incorporates in-context
learning of family-specific evolutionary constraints with optional structure
conditioning to learn generative distributions over protein sequences. PoET-2
uses a hierarchical transformer encoder that is equivariant to sequence context
ordering and a dual decoder architecture with both causal and masked language
modeling objectives, allowing PoET-2 to operate in both fully generative and
bidirectional representation learning modes. PoET-2 achieves state-of-the-art
performance on zero-shot variant effect prediction, excelling at scoring
variants with multiple mutations and challenging indel mutations. In supervised
settings, PoET-2 embeddings outperform previous methods for learning
sequence-function relationships, especially with small datasets. This work
highlights the benefits of combining retrieval augmentation with multimodal,
family-centric modeling for advancing protein foundation models.
Ссылки и действия
Дополнительные ресурсы: