📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 epiGPTope: A machine learning-based epitope generator and classifier

2025-09-05

Авторы:

Natalia Flechas Manrique, Alberto Martínez, Elena López-Martínez, Luc Andrea, Román Orus, Aitor Manteca, Aitziber L. Cortajarena, Llorenç Espinosa-Portalés

## Контекст Эпитопы — это короткие антигенные пептидные сегменты, которые признаются антителами или рецепторами иммунных клеток. Они являются ключевыми компонентами разработки иммунотерапий, вакцин и диагностических тестов. Однако синтетическое проектирование библиотек эпитопов представляет собой значительную проблему из-за огромного комбинаторного пространства последовательностей ($20^n$ комбинаций для линейных эпитопов из $n$ аминокислот). Экспериментальные методы поиска эпитопов часто оказываются медленными и дорогостоящими. Наличие точных и эффективных методов генерации и классификации эпитопов может существенно ускорить их разработку и применение в биотехнологиях. ## Метод Предложенный подход основывается на epiGPTope — генерирующем модели, основанной на трансформерах, которая была предварительно обучена на большом корпусе протеиновых данных и дообучена на линейных эпитопах. Эта модель может генерировать новые эпитоп-подобные последовательности, которые показали статистические свойства, аналогичные тем, что обнаруживаются в естественных эпитопах. Для уточнения полученных последовательностей разработаны классификаторы, определяющие, является ли эпитоп бактериальным или вирусным. Эти модели используют только последовательности аминокислот, делая процесс быстрым и эффективным, без необходимости применения геометрических моделей или ручного определения признаков. ## Результаты Проведенные эксперименты показали, что epiGPTope способна генерировать эпитоп-подобные последовательности с высокой точностью. Данные последовательности обладали статистическими свойствами, аналогичными тем, что присущи естественным эпитопам. Классификаторы предсказали с использованием внутренних взаимосвязей в последовательностях и показали точность при определении источника — бактерий или вирусов. Эти результаты позволяют значительно сократить количество экспериментальных испытаний при поиске целевых эпитопов. ## Значимость Предложенный подход может сократить сроки и стоимость разработки новых биотехнологий, основанных на эпитопах. Он имеет потенциал для разработки более эффективных вакцин, тестирования иммунных реакций и разработки новых диагностических тестов. Благодаря возможности сконцентрироваться на биологически значимых последовательностях, этот подход может существенно увеличить эффективность итоговых результатов в биологических исследованиях. ## Выводы Обнаружение эпитопов остается важной задачей в биотехнологиях, а epiGPTope представляет собой прорыв в этой области. Высокая точност

Annotation:

Epitopes are short antigenic peptide sequences which are recognized by antibodies or immune cell receptors. These are central to the development of immunotherapies, vaccines, and diagnostics. However, the rational design of synthetic epitope libraries is challenging due to the large combinatorial sequence space, $20^n$ combinations for linear epitopes of n amino acids, making screening and testing unfeasible, even with high throughput experimental techniques. In this study, we present a large la...

ID: 2509.03351v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

📄 DrugReasoner: Interpretable Drug Approval Prediction with a Reasoning-augmented Language Model

2025-08-28

Авторы:

Mohammadreza Ghaffarzadeh-Esfahani, Ali Motahharynia, Nahid Yousefian, Navid Mazrouei, Jafar Ghaisari, Yousof Gheisari

## Контекст Область исследования, связанная с предсказанием утверждения лекарственных средств, является ключевой для оптимизации научных исследований и сокращения времени получения новых лекарств на рынок. Несмотря на высокую точность методов машинного обучения, они часто сталкиваются с проблемой непрозрачности решений, что ограничивает их применение в реальной практике. Это делает необходимым развитие моделей, которые не только предсказывали бы результаты, но и обеспечивали бы понятное обоснование своих выводов. ## Метод DrugReasoner — это применительно к лекарственным средствам расширенная модель языка (LLM), основанная на архитектуре LLaMA. Модель была дообучена с использованием групповой политики оптимизации (GRPO) для повышения точности предсказания и улучшения разборчивости решений. Основные инструменты включили методы сравнительного анализа, используя описательные характеристики медикаментов, которые помогали сопоставлять их с утвержденными и отклоненными вариантами. Модель также выдает подробные логические разрешения, подкрепляющие свои выводы. ## Результаты Проведенные эксперименты показали, что DrugReasoner превысил многие классические модели, такие как логистическая регрессия, суппурт-векторная машина и к-ближайшие соседи, показав AUC в 0.732 и F1-меру в 0.729 на валидационной выборке, а также стабильные результаты на тестовой выборке. Эксперименты на внешней выборке подтвердили высокую стабильность модели, с AUC в 0.728 и F1-мерой в 0.774. Эти результаты становятся ключевыми для предсказания утверждения лекарственных средств с высокой точностью и сохранением логической прозрачности решений. ## Значимость DrugReasoner может применяться в различных фармацевтических процессах, в том числе в быстром оценивании потенциала новых лекарственных средств. Он улучшает прозрачность, что делает его привлекательным для решений в области AI-поддерживаемого лекарственного развития. Благодаря развитию решений, которые обеспечивают не только точность но и понятные выводы, модель открывает новые пути для интеллектуальной поддержки в научном и практическом лекарственном производстве. ## Выводы Результаты DrugReasoner показали высокую точность и прозрачность в предсказании утверждения лекарственных средств. На основе этих достижений, будущие исследования будут направлены на улучшение модели, включая расширение размера данных, изучение новых методов оптимизации и расширение применимости модели к другим областям биомедицины.

Annotation:

Drug discovery is a complex and resource-intensive process, making early prediction of approval outcomes critical for optimizing research investments. While classical machine learning and deep learning methods have shown promise in drug approval prediction, their limited interpretability constraints their impact. Here, we present DrugReasoner, a reasoning-based large language model (LLM) built on the LLaMA architecture and fine-tuned with group relative policy optimization (GRPO) to predict the ...

ID: 2508.18579v1 cs.LG, cs.AI, q-bio.QM, I.2.7; J.3; I.2.6

arXiv PDF

📄 Deep Learning Model for Amyloidogenicity Prediction using a Pre-trained Protein LLM

2025-08-20

Авторы:

Zohra Yagoub, Hafida Bouziane

#### Контекст Предсказание amyloidogenicity (способности белков и пептидов формировать амилоиды) является ключевым заданием в биоинформатике, так как амилоиды связаны с развитием многих серьезных заболеваний, включая альцгеймерскую болезнь и склероза. Однако прогностические модели до сих пор сталкиваются с ограничениями, в частности, недостаточной точностью, ограниченной обработкой больших данных и неэффективным использованием контекстной информации из последовательностей белков. Данная работа адресует эти проблемы, используя развитие больших моделей языка (LLMs) для повышения точности и точности прогнозов. #### Метод Модель Deep Learning (DL), основанная на bidirectional LSTM и GRU, использовалась для предсказания amyloidogenicity. Фиксированные предобученные веса были взяты из широко используемой protein LLMs (ProteinBERT), чтобы получить контекстные фичи из последовательностей белков. Эти контекстные представления были вводины в модель LSTM и GRU для получения последовательных представлений. Модель была обучена и проверена с помощью 10-fold cross-validation и тестовой выборки, чтобы оценить качество предсказания. #### Результаты Модель показала высокую точность в 84.5% в 10-fold cross-validation и 83% на тестовой выборке. Эксперименты проводились на разных данных, включая семью белков с известным amyloidogenicity (как положительные, так и отрицательные примеры). Результаты показали высокую точность, специфичность и плотность предсказаний, что указывает на эффективность использования LLMs для amyloidogenicity prediction. #### Значимость Результаты модели могут быть применены в многих областях, включая поиск новых лекарственных целей, разработку биотехнологий, и мониторинг здоровья. Из-за своей высокой точности и эффективности, модель предлагает значительный потенциал для улучшения процессов прогноза в медицинских и биологических исследованиях. #### Выводы Результаты демонстрируют, что LLMs могут быть эффективно использованы для prediction amyloidogenicity в белках и пептидах. Будущие исследования будут направлены на изучение других типов моделей DL, как transformer-based, и их применение в более широких биологических задачах.

Annotation:

The prediction of amyloidogenicity in peptides and proteins remains a focal point of ongoing bioinformatics. The crucial step in this field is to apply advanced computational methodologies. Many recent approaches to predicting amyloidogenicity within proteins are highly based on evolutionary motifs and the individual properties of amino acids. It is becoming increasingly evident that the sequence information-based features show high predictive performance. Consequently, our study evaluated the c...

ID: 2508.12575v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

📄 ProtTeX-CC: Activating In-Context Learning in Protein LLM via Two-Stage Instruction Compression

2025-08-19

Авторы:

Chuanliu Fan, Zicheng Ma, Jun Gao, Nan Yu, Jun Zhang, Ziqiang Cao, Yi Qin Gao, Guohong Fu

#### Контекст Протеиновые большие языковые модели (LLM), такие как ProtTeX, представляют собой мощные инструменты для анализа и моделирования протеинов. Они объединяют в себе различные свойства протеинов, такие как последовательности аминокислот и структурные особенности, в единую модель. Однако существуют две основные проблемы. Во-первых, применение сочетания последовательностей и структурных данных приводит к удвоению длины запроса и нарушению сохранения характеристик в уровне резидентов. Во-вторых, ограничение контекстного окна и ограничение корпуса обучения затрудняют использование ProtTeX в ситуациях нескольких образцов (few-shot learning). Данные ограничения существенно ограничивают их широкое применение в практических задачах. #### Метод Для улучшения ProtTeX-CC был разработан двухэтапный подход: 1. **Joint Embedding Compression** — разработана механика, которая объединяет последовательность и структурные свойства в одной последовательности на уровне резидентов. Это позволило значительно сократить длину входных данных (до половины), оставив полноценную информацию. 2. **Self-Compression Module** — второй этап сжимает длину демонстраций (демонстрационных примеров), сводит их к краткому виду, основываясь на последних токенах, полученных из полного контекста. Это позволило сократить длину демонстраций от 751 до менее 16 токенов. Эти модификации добавили в ProtTeX-CC лишь небольшое число дополнительных параметров, не затрагивая основную структуру модели. #### Результаты Конкретные эксперименты проводились на задачех функционального прогноза протеинов. Использовались две области данных: in-domain (сходная с обучающим корпусом) и out-of-domain (различная с обучающим корпусом). Основные результаты: - **In-domain benchmark**: увеличение точности на 2%. - **Out-of-domain dataset**: повышение производительности на 11%. - **Compression Ratio**: в 16-shot сценарии сократилось приблизительно на 93.68%, что демонстрирует эффективность сжимающего подхода. #### Значимость Предложенный подход имеет большое практическое значение в нескольких областях: 1. **Медицина и биология**: повышение точности прогноза функций протеинов, что может привести к разработке новых лекарств и биотехнологий. 2. **Искусственный Интеллект**: улучшение универсальности и обучаемости моделей без значительных изменений архитектуры. 3. **Задачи классификации и генерирования**: модель ProtTeX-CC может применяться в широком спектре задач с небольшим числом обучающих примеров. #### Выводы ProtTeX-CC значительно улучшает возможности ProtTeX в ситуациях нескольких образцов, сжимая запросы без потери производительности и улучшая общую гибкость. Буду

Annotation:

Recent advances in protein large language models, such as ProtTeX, represent both side-chain amino acids and backbone structure as discrete token sequences of residue length. While this design enables unified modeling of multimodal protein information, it suffers from two major limitations: (1) The concatenation of sequence and structure tokens approximately doubles the protein length and breaks the intrinsic residue-level alignment between modalities. (2) Constrained by the training corpus and ...

ID: 2508.12212v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

📄 HSA-Net: Hierarchical and Structure-Aware Framework for Efficient and Scalable Molecular Language Modeling

2025-08-14

Авторы:

Zihang Shao, Wentao Lei, Lei Wang, Wencai Ye, Li Liu

## Контекст Molecular representation learning является основополагающей задачей для решения таких прикладных задач, как молекулярная капшн и предсказание молекулярных свойств. Несмотря на то, что Graph Neural Networks (GNN) стали одним из главных инструментов для этих задач, они сталкиваются со сложностями, в том числе проблемой over-smoothing, когда глубокие слои GNN приводят к схематизации функций узлов. Эта проблема особенно актуальна при работе с глубокими GNN-моделями. Несмотря на введение методов проекции функций с помощью cross-attention, они не всегда эффективно работают в глубоких слоях. Это побудило авторов исследовать альтернативные подходы, включая Граф-Mamba, но даже он не может успешно справиться с взаимодействием глобальных и локальных структур. Другими словами, существует глобально-локальное взаимодействие, которое необходимо учитывать. Мотивируясь этим, авторы предлагают HSA-Net — метод, который решает эту проблему. ## Метод HSA-Net является инновационным фреймворком, основанным на двух модулях. Во-первых, **Hierarchical Adaptive Projector (HAP)** обеспечивает динамическую проекцию функций узлов, используя cross-attention для глубоких слоев и Graph-Mamba для локальных характеристик. Во-вторых, **Source-Aware Fusion (SAF)** включает в себя механизм выбора экспертов, который адаптивно объединяет проекции и учитывает характеристики этих проекций. Это позволяет HSA-Net эффективно объединять глобальные и локальные сведения, которые необходимы для точного и структурированного представления молекул. ## Результаты Данные для экспериментов были получены из различных баз данных, таких как ZINC и QM9. На этих данных HSA-Net показал лучшие результаты по сравнению с состояниями искусства (SOTA) в задачах моделирования языка молекул. Точность предсказания молекулярных свойств и капшнов на порядок была выше. Эти результаты доказывают, что HSA-Net не только улучшает общую точность, но и способствует менее однородному представлению молекул, что важно для сложных задач моделирования. ## Значимость HSA-Net может быть применен в различных областях, включая моделирование молекул, синтез молекул и другие аспекты химического проектирования. Основные преимущества в том, что он устраняет проблемы, связанные с глобально-локальным взаимодействием, и обеспечивает более точное представление молекул. Это может существенно повысить эффективность в таких областях, как молекулярный синтез или предсказание свойств. Будущие исследования могут ориентироваться на расширение HSA-Net для более широкого класса задач, включая биологические системы и стимулированные молекулярные симуляции. ## Выводы HSA-Net устанавливает но

Annotation:

Molecular representation learning, a cornerstone for downstream tasks like molecular captioning and molecular property prediction, heavily relies on Graph Neural Networks (GNN). However, GNN suffers from the over-smoothing problem, where node-level features collapse in deep GNN layers. While existing feature projection methods with cross-attention have been introduced to mitigate this issue, they still perform poorly in deep features. This motivated our exploration of using Mamba as an alternati...

ID: 2508.08334v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

Показано 11 - 15 из 15 записей