Fused Lasso Improves Accuracy of Co-occurrence Network Inference in Grouped Samples

2509.09413v1 cs.LG, q-bio.PE 2025-09-13
Авторы:

Daniel Agyapong, Briana H. Beatty, Peter G. Kennedy, Toby D. Hocking

Резюме на русском

## Контекст Координационные сети микробной коммуникации (Co-occurrence network inference) позволили значительно расширить понимание структуры и функционирования микробных сообществ. Однако, эти алгоритмы, как правило, ограничиваются анализом статических снимков микробной коммуникации в одной экологической нише. Они не учитывают, как микробные сообщества меняют свои связи при взаимодействии с различными экологическими условиями. Наша исследовательская работа направлена на исследование динамических процессов в микробных сообществах, принимая во внимание особенности их адаптации к разным условиям. Мы работали с публично доступными данными микробного состава в разных местах и временных моментах. Эти данные позволили нам оценить эффективность различных методик в предсказании микробных связей. Наша цель — сделать алгоритмы более точными и универсальными, учитывая эти динамические аспекты. ## Метод Мы разработали процедуру Same-All Cross-validation (SAC), которая позволяет оценивать алгоритмы в двух отдельных сценариях. В первом сценарии (Same), алгоритм обучается и тестируется в рамках одной экологической ниши. Во втором (All), алгоритм обучается на данных из нескольких экологических ниш и тестируется на комбинированных данных. Мы предложили новый алгоритм, который мы назвали fuser. Он не является совершенно новым в машинном обучении, но новым в контексте интерпретации микробных сообществ. Fuser сохраняет специфические для подвыборки сигналы, при этом делится связанной информацией между разными экологическими условиями в ходе обучения. В отличие от стандартных подходов, которые пытаются построить общую сеть для всех данных, fuser порождает сети, привязанные к конкретным экологическим условиям. Это позволяет улучшить точность и динамичность предсказаний. ## Результаты Мы провели эксперименты, используя различные наборы данных с микробного состава, собранных в разных экологических условиях. Функционал SAC позволил нам оценивать производительность алгоритмов в разных сценариях. Мы сравнили наш алгоритм fuser с другими методами, такими как glmnet. Результаты показали, что fuser демонстрирует аналогичную точность в сценарии Same, где обучение и тестирование происходят в одной экологической нищи. Однако в сценарии All, где обучение производится на нескольких экологических ниш, fuser существенно уменьшает ошибки в прогнозировании, улучшая результаты по сравнению с другими алгоритмами. ## Значимость Наша работа может быть применена в различных областях, где требуется точное предсказание микробных связей, например, в работе с микробными терапиями или в агробио

Abstract

Co-occurrence network inference algorithms have significantly advanced our understanding of microbiome communities. However, these algorithms typically analyze microbial associations within samples collected from a single environmental niche, often capturing only static snapshots rather than dynamic microbial processes. Previous studies have commonly grouped samples from different environmental niches together without fully considering how microbial communities adapt their associations when faced with varying ecological conditions. Our study addresses this limitation by explicitly investigating both spatial and temporal dynamics of microbial communities. We analyzed publicly available microbiome abundance data across multiple locations and time points, to evaluate algorithm performance in predicting microbial associations using our proposed Same-All Cross-validation (SAC) framework. SAC evaluates algorithms in two distinct scenarios: training and testing within the same environmental niche (Same), and training and testing on combined data from multiple environmental niches (All). To overcome the limitations of conventional algorithms, we propose fuser, an algorithm that, while not entirely new in machine learning, is novel for microbiome community network inference. It retains subsample-specific signals while simultaneously sharing relevant information across environments during training. Unlike standard approaches that infer a single generalized network from combined data, fuser generates distinct, environment-specific predictive networks. Our results demonstrate that fuser achieves comparable predictive performance to existing algorithms such as glmnet when evaluated within homogeneous environments (Same), and notably reduces test error compared to baseline algorithms in cross-environment (All) scenarios.

Ссылки и действия