Fusing Sequence Motifs and Pan-Genomic Features: Antimicrobial Resistance Prediction using an Explainable Lightweight 1D CNN-XGBoost Ensemble
2509.23552v1
cs.LG, cs.AI, q-bio.GN, q-bio.QM
2025-10-01
Авторы:
Md. Saiful Bari Siddiqui, Nowshin Tarannum
Резюме на русском
#### Контекст
Antimicrobial Resistance (AMR) является одной из наиболее серьезных мировых глобальных угрозой здравоохранения. Несмотря на то что геномическое секвенирование позволяет быстро определять резистентность к антибиотикам, общедоступные методы не всегда эффективны. Ранее использованные методы трактуют геном как неупорядоченный набор признаков, не учитывая последовательный контекст Single Nucleotide Polymorphisms (SNPs). Однако последние построения, такие как Transformers, требуют больших объемов данных и являются ресурсоемкими.
#### Метод
Мы предлагаем AMR-EnsembleNet — комбинацию 1D CNN и XGBoost, которая эффективно захватывает последовательный контекст SNPs и комплексные взаимодействия признаков. 1D CNN использует грамотно подобранные ядра для выделения последовательных мотивов, в то время как XGBoost анализирует глобальные взаимосвязи признаков. Для обработки количественных и категориальных данных, мы использовали адаптированные методы весов и трансформаций. Обучаясь на датасете 809 стрептококковых штаммов, мы проверяли подход на предсказании резистентности к четырём антибиотикам.
#### Результаты
Наши модели демонстрируют высокую точность и сбалансированность. Максимальный MCC для Ciprofloxacin (CIP) составил 0.926, а Macro F1-score для Gentamicin (GEN) достиг 0.691. Модель показала значимую акцентуацию на SNPs в классических AMR-генах, таких как fusA и parC, что подтверждает корректное обучение модели на генетических сигналах.
#### Значимость
Предложенная модель предлагает практические выгоды в быстром и точном предсказании резистентности к антибиотикам. Она легко применяется в реальных условиях, не требуя ресурсоемких вычислений. Это решение может повлиять на быстрое определение резистентности в клинических ситуациях, улучшая терапевтические решения.
#### Выводы
Мы продемонстрировали, что комбинация 1D CNN и XGBoost эффективно решает проблему предсказания резистентности. Наше исследование открывает пути для будущих разработок в области explainable AI для AMR, в том числе использования глубинных моделей для других биологических задач.
Abstract
Antimicrobial Resistance (AMR) is a rapidly escalating global health crisis.
While genomic sequencing enables rapid prediction of resistance phenotypes,
current computational methods have limitations. Standard machine learning
models treat the genome as an unordered collection of features, ignoring the
sequential context of Single Nucleotide Polymorphisms (SNPs). State-of-the-art
sequence models like Transformers are often too data-hungry and computationally
expensive for the moderately-sized datasets that are typical in this domain. To
address these challenges, we propose AMR-EnsembleNet, an ensemble framework
that synergistically combines sequence-based and feature-based learning. We
developed a lightweight, custom 1D Convolutional Neural Network (CNN) to
efficiently learn predictive sequence motifs from high-dimensional SNP data.
This sequence-aware model was ensembled with an XGBoost model, a powerful
gradient boosting system adept at capturing complex, non-local feature
interactions. We trained and evaluated our framework on a benchmark dataset of
809 E. coli strains, predicting resistance across four antibiotics with varying
class imbalance. Our 1D CNN-XGBoost ensemble consistently achieved top-tier
performance across all the antibiotics, reaching a Matthews Correlation
Coefficient (MCC) of 0.926 for Ciprofloxacin (CIP) and the highest Macro
F1-score of 0.691 for the challenging Gentamicin (GEN) AMR prediction. We also
show that our model consistently focuses on SNPs within well-known AMR genes
like fusA and parC, confirming it learns the correct genetic signals for
resistance. Our work demonstrates that fusing a sequence-aware 1D CNN with a
feature-based XGBoost model creates a powerful ensemble, overcoming the
limitations of using either an order-agnostic or a standalone sequence model.