Fusing Sequence Motifs and Pan-Genomic Features: Antimicrobial Resistance Prediction using an Explainable Lightweight 1D CNN-XGBoost Ensemble

2509.23552v1 cs.LG, cs.AI, q-bio.GN, q-bio.QM 2025-10-01
Авторы:

Md. Saiful Bari Siddiqui, Nowshin Tarannum

Резюме на русском

#### Контекст Antimicrobial Resistance (AMR) является одной из наиболее серьезных мировых глобальных угрозой здравоохранения. Несмотря на то что геномическое секвенирование позволяет быстро определять резистентность к антибиотикам, общедоступные методы не всегда эффективны. Ранее использованные методы трактуют геном как неупорядоченный набор признаков, не учитывая последовательный контекст Single Nucleotide Polymorphisms (SNPs). Однако последние построения, такие как Transformers, требуют больших объемов данных и являются ресурсоемкими. #### Метод Мы предлагаем AMR-EnsembleNet — комбинацию 1D CNN и XGBoost, которая эффективно захватывает последовательный контекст SNPs и комплексные взаимодействия признаков. 1D CNN использует грамотно подобранные ядра для выделения последовательных мотивов, в то время как XGBoost анализирует глобальные взаимосвязи признаков. Для обработки количественных и категориальных данных, мы использовали адаптированные методы весов и трансформаций. Обучаясь на датасете 809 стрептококковых штаммов, мы проверяли подход на предсказании резистентности к четырём антибиотикам. #### Результаты Наши модели демонстрируют высокую точность и сбалансированность. Максимальный MCC для Ciprofloxacin (CIP) составил 0.926, а Macro F1-score для Gentamicin (GEN) достиг 0.691. Модель показала значимую акцентуацию на SNPs в классических AMR-генах, таких как fusA и parC, что подтверждает корректное обучение модели на генетических сигналах. #### Значимость Предложенная модель предлагает практические выгоды в быстром и точном предсказании резистентности к антибиотикам. Она легко применяется в реальных условиях, не требуя ресурсоемких вычислений. Это решение может повлиять на быстрое определение резистентности в клинических ситуациях, улучшая терапевтические решения. #### Выводы Мы продемонстрировали, что комбинация 1D CNN и XGBoost эффективно решает проблему предсказания резистентности. Наше исследование открывает пути для будущих разработок в области explainable AI для AMR, в том числе использования глубинных моделей для других биологических задач.

Abstract

Antimicrobial Resistance (AMR) is a rapidly escalating global health crisis. While genomic sequencing enables rapid prediction of resistance phenotypes, current computational methods have limitations. Standard machine learning models treat the genome as an unordered collection of features, ignoring the sequential context of Single Nucleotide Polymorphisms (SNPs). State-of-the-art sequence models like Transformers are often too data-hungry and computationally expensive for the moderately-sized datasets that are typical in this domain. To address these challenges, we propose AMR-EnsembleNet, an ensemble framework that synergistically combines sequence-based and feature-based learning. We developed a lightweight, custom 1D Convolutional Neural Network (CNN) to efficiently learn predictive sequence motifs from high-dimensional SNP data. This sequence-aware model was ensembled with an XGBoost model, a powerful gradient boosting system adept at capturing complex, non-local feature interactions. We trained and evaluated our framework on a benchmark dataset of 809 E. coli strains, predicting resistance across four antibiotics with varying class imbalance. Our 1D CNN-XGBoost ensemble consistently achieved top-tier performance across all the antibiotics, reaching a Matthews Correlation Coefficient (MCC) of 0.926 for Ciprofloxacin (CIP) and the highest Macro F1-score of 0.691 for the challenging Gentamicin (GEN) AMR prediction. We also show that our model consistently focuses on SNPs within well-known AMR genes like fusA and parC, confirming it learns the correct genetic signals for resistance. Our work demonstrates that fusing a sequence-aware 1D CNN with a feature-based XGBoost model creates a powerful ensemble, overcoming the limitations of using either an order-agnostic or a standalone sequence model.

Ссылки и действия