epiGPTope: A machine learning-based epitope generator and classifier

2509.03351v1 cs.LG, cs.AI, q-bio.QM 2025-09-05
Авторы:

Natalia Flechas Manrique, Alberto Martínez, Elena López-Martínez, Luc Andrea, Román Orus, Aitor Manteca, Aitziber L. Cortajarena, Llorenç Espinosa-Portalés

Резюме на русском

## Контекст Эпитопы — это короткие антигенные пептидные сегменты, которые признаются антителами или рецепторами иммунных клеток. Они являются ключевыми компонентами разработки иммунотерапий, вакцин и диагностических тестов. Однако синтетическое проектирование библиотек эпитопов представляет собой значительную проблему из-за огромного комбинаторного пространства последовательностей ($20^n$ комбинаций для линейных эпитопов из $n$ аминокислот). Экспериментальные методы поиска эпитопов часто оказываются медленными и дорогостоящими. Наличие точных и эффективных методов генерации и классификации эпитопов может существенно ускорить их разработку и применение в биотехнологиях. ## Метод Предложенный подход основывается на epiGPTope — генерирующем модели, основанной на трансформерах, которая была предварительно обучена на большом корпусе протеиновых данных и дообучена на линейных эпитопах. Эта модель может генерировать новые эпитоп-подобные последовательности, которые показали статистические свойства, аналогичные тем, что обнаруживаются в естественных эпитопах. Для уточнения полученных последовательностей разработаны классификаторы, определяющие, является ли эпитоп бактериальным или вирусным. Эти модели используют только последовательности аминокислот, делая процесс быстрым и эффективным, без необходимости применения геометрических моделей или ручного определения признаков. ## Результаты Проведенные эксперименты показали, что epiGPTope способна генерировать эпитоп-подобные последовательности с высокой точностью. Данные последовательности обладали статистическими свойствами, аналогичными тем, что присущи естественным эпитопам. Классификаторы предсказали с использованием внутренних взаимосвязей в последовательностях и показали точность при определении источника — бактерий или вирусов. Эти результаты позволяют значительно сократить количество экспериментальных испытаний при поиске целевых эпитопов. ## Значимость Предложенный подход может сократить сроки и стоимость разработки новых биотехнологий, основанных на эпитопах. Он имеет потенциал для разработки более эффективных вакцин, тестирования иммунных реакций и разработки новых диагностических тестов. Благодаря возможности сконцентрироваться на биологически значимых последовательностях, этот подход может существенно увеличить эффективность итоговых результатов в биологических исследованиях. ## Выводы Обнаружение эпитопов остается важной задачей в биотехнологиях, а epiGPTope представляет собой прорыв в этой области. Высокая точност

Abstract

Epitopes are short antigenic peptide sequences which are recognized by antibodies or immune cell receptors. These are central to the development of immunotherapies, vaccines, and diagnostics. However, the rational design of synthetic epitope libraries is challenging due to the large combinatorial sequence space, $20^n$ combinations for linear epitopes of n amino acids, making screening and testing unfeasible, even with high throughput experimental techniques. In this study, we present a large language model, epiGPTope, pre-trained on protein data and specifically fine-tuned on linear epitopes, which for the first time can directly generate novel epitope-like sequences, which are found to possess statistical properties analogous to the ones of known epitopes. This generative approach can be used to prepare libraries of epitope candidate sequences. We further train statistical classifiers to predict whether an epitope sequence is of bacterial or viral origin, thus narrowing the candidate library and increasing the likelihood of identifying specific epitopes. We propose that such combination of generative and predictive models can be of assistance in epitope discovery. The approach uses only primary amino acid sequences of linear epitopes, bypassing the need for a geometric framework or hand-crafted features of the sequences. By developing a method to create biologically feasible sequences, we anticipate faster and more cost-effective generation and screening of synthetic epitopes, with relevant applications in the development of new biotechnologies.

Ссылки и действия