epiGPTope: A machine learning-based epitope generator and classifier
2509.03351v1
cs.LG, cs.AI, q-bio.QM
2025-09-05
Авторы:
Natalia Flechas Manrique, Alberto Martínez, Elena López-Martínez, Luc Andrea, Román Orus, Aitor Manteca, Aitziber L. Cortajarena, Llorenç Espinosa-Portalés
Резюме на русском
## Контекст
Эпитопы — это короткие антигенные пептидные сегменты, которые признаются антителами или рецепторами иммунных клеток. Они являются ключевыми компонентами разработки иммунотерапий, вакцин и диагностических тестов. Однако синтетическое проектирование библиотек эпитопов представляет собой значительную проблему из-за огромного комбинаторного пространства последовательностей ($20^n$ комбинаций для линейных эпитопов из $n$ аминокислот). Экспериментальные методы поиска эпитопов часто оказываются медленными и дорогостоящими. Наличие точных и эффективных методов генерации и классификации эпитопов может существенно ускорить их разработку и применение в биотехнологиях.
## Метод
Предложенный подход основывается на epiGPTope — генерирующем модели, основанной на трансформерах, которая была предварительно обучена на большом корпусе протеиновых данных и дообучена на линейных эпитопах. Эта модель может генерировать новые эпитоп-подобные последовательности, которые показали статистические свойства, аналогичные тем, что обнаруживаются в естественных эпитопах. Для уточнения полученных последовательностей разработаны классификаторы, определяющие, является ли эпитоп бактериальным или вирусным. Эти модели используют только последовательности аминокислот, делая процесс быстрым и эффективным, без необходимости применения геометрических моделей или ручного определения признаков.
## Результаты
Проведенные эксперименты показали, что epiGPTope способна генерировать эпитоп-подобные последовательности с высокой точностью. Данные последовательности обладали статистическими свойствами, аналогичными тем, что присущи естественным эпитопам. Классификаторы предсказали с использованием внутренних взаимосвязей в последовательностях и показали точность при определении источника — бактерий или вирусов. Эти результаты позволяют значительно сократить количество экспериментальных испытаний при поиске целевых эпитопов.
## Значимость
Предложенный подход может сократить сроки и стоимость разработки новых биотехнологий, основанных на эпитопах. Он имеет потенциал для разработки более эффективных вакцин, тестирования иммунных реакций и разработки новых диагностических тестов. Благодаря возможности сконцентрироваться на биологически значимых последовательностях, этот подход может существенно увеличить эффективность итоговых результатов в биологических исследованиях.
## Выводы
Обнаружение эпитопов остается важной задачей в биотехнологиях, а epiGPTope представляет собой прорыв в этой области. Высокая точност
Abstract
Epitopes are short antigenic peptide sequences which are recognized by
antibodies or immune cell receptors. These are central to the development of
immunotherapies, vaccines, and diagnostics. However, the rational design of
synthetic epitope libraries is challenging due to the large combinatorial
sequence space, $20^n$ combinations for linear epitopes of n amino acids,
making screening and testing unfeasible, even with high throughput experimental
techniques. In this study, we present a large language model, epiGPTope,
pre-trained on protein data and specifically fine-tuned on linear epitopes,
which for the first time can directly generate novel epitope-like sequences,
which are found to possess statistical properties analogous to the ones of
known epitopes. This generative approach can be used to prepare libraries of
epitope candidate sequences. We further train statistical classifiers to
predict whether an epitope sequence is of bacterial or viral origin, thus
narrowing the candidate library and increasing the likelihood of identifying
specific epitopes. We propose that such combination of generative and
predictive models can be of assistance in epitope discovery. The approach uses
only primary amino acid sequences of linear epitopes, bypassing the need for a
geometric framework or hand-crafted features of the sequences. By developing a
method to create biologically feasible sequences, we anticipate faster and more
cost-effective generation and screening of synthetic epitopes, with relevant
applications in the development of new biotechnologies.
Ссылки и действия
Дополнительные ресурсы: