Deep Learning Model for Amyloidogenicity Prediction using a Pre-trained Protein LLM
2508.12575v1
cs.LG, cs.AI, q-bio.QM
2025-08-20
Авторы:
Zohra Yagoub, Hafida Bouziane
Резюме на русском
#### Контекст
Предсказание amyloidogenicity (способности белков и пептидов формировать амилоиды) является ключевым заданием в биоинформатике, так как амилоиды связаны с развитием многих серьезных заболеваний, включая альцгеймерскую болезнь и склероза. Однако прогностические модели до сих пор сталкиваются с ограничениями, в частности, недостаточной точностью, ограниченной обработкой больших данных и неэффективным использованием контекстной информации из последовательностей белков. Данная работа адресует эти проблемы, используя развитие больших моделей языка (LLMs) для повышения точности и точности прогнозов.
#### Метод
Модель Deep Learning (DL), основанная на bidirectional LSTM и GRU, использовалась для предсказания amyloidogenicity. Фиксированные предобученные веса были взяты из широко используемой protein LLMs (ProteinBERT), чтобы получить контекстные фичи из последовательностей белков. Эти контекстные представления были вводины в модель LSTM и GRU для получения последовательных представлений. Модель была обучена и проверена с помощью 10-fold cross-validation и тестовой выборки, чтобы оценить качество предсказания.
#### Результаты
Модель показала высокую точность в 84.5% в 10-fold cross-validation и 83% на тестовой выборке. Эксперименты проводились на разных данных, включая семью белков с известным amyloidogenicity (как положительные, так и отрицательные примеры). Результаты показали высокую точность, специфичность и плотность предсказаний, что указывает на эффективность использования LLMs для amyloidogenicity prediction.
#### Значимость
Результаты модели могут быть применены в многих областях, включая поиск новых лекарственных целей, разработку биотехнологий, и мониторинг здоровья. Из-за своей высокой точности и эффективности, модель предлагает значительный потенциал для улучшения процессов прогноза в медицинских и биологических исследованиях.
#### Выводы
Результаты демонстрируют, что LLMs могут быть эффективно использованы для prediction amyloidogenicity в белках и пептидах. Будущие исследования будут направлены на изучение других типов моделей DL, как transformer-based, и их применение в более широких биологических задачах.
Abstract
The prediction of amyloidogenicity in peptides and proteins remains a focal
point of ongoing bioinformatics. The crucial step in this field is to apply
advanced computational methodologies. Many recent approaches to predicting
amyloidogenicity within proteins are highly based on evolutionary motifs and
the individual properties of amino acids. It is becoming increasingly evident
that the sequence information-based features show high predictive performance.
Consequently, our study evaluated the contextual features of protein sequences
obtained from a pretrained protein large language model leveraging
bidirectional LSTM and GRU to predict amyloidogenic regions in peptide and
protein sequences. Our method achieved an accuracy of 84.5% on 10-fold
cross-validation and an accuracy of 83% in the test dataset. Our results
demonstrate competitive performance, highlighting the potential of LLMs in
enhancing the accuracy of amyloid prediction.
Ссылки и действия
Дополнительные ресурсы: