Fused Lasso Improves Accuracy of Co-occurrence Network Inference in Grouped Samples
2509.09413v1
cs.LG, q-bio.PE
2025-09-13
Авторы:
Daniel Agyapong, Briana H. Beatty, Peter G. Kennedy, Toby D. Hocking
Резюме на русском
## Контекст
Координационные сети микробной коммуникации (Co-occurrence network inference) позволили значительно расширить понимание структуры и функционирования микробных сообществ. Однако, эти алгоритмы, как правило, ограничиваются анализом статических снимков микробной коммуникации в одной экологической нише. Они не учитывают, как микробные сообщества меняют свои связи при взаимодействии с различными экологическими условиями. Наша исследовательская работа направлена на исследование динамических процессов в микробных сообществах, принимая во внимание особенности их адаптации к разным условиям. Мы работали с публично доступными данными микробного состава в разных местах и временных моментах. Эти данные позволили нам оценить эффективность различных методик в предсказании микробных связей. Наша цель — сделать алгоритмы более точными и универсальными, учитывая эти динамические аспекты.
## Метод
Мы разработали процедуру Same-All Cross-validation (SAC), которая позволяет оценивать алгоритмы в двух отдельных сценариях. В первом сценарии (Same), алгоритм обучается и тестируется в рамках одной экологической ниши. Во втором (All), алгоритм обучается на данных из нескольких экологических ниш и тестируется на комбинированных данных. Мы предложили новый алгоритм, который мы назвали fuser. Он не является совершенно новым в машинном обучении, но новым в контексте интерпретации микробных сообществ. Fuser сохраняет специфические для подвыборки сигналы, при этом делится связанной информацией между разными экологическими условиями в ходе обучения. В отличие от стандартных подходов, которые пытаются построить общую сеть для всех данных, fuser порождает сети, привязанные к конкретным экологическим условиям. Это позволяет улучшить точность и динамичность предсказаний.
## Результаты
Мы провели эксперименты, используя различные наборы данных с микробного состава, собранных в разных экологических условиях. Функционал SAC позволил нам оценивать производительность алгоритмов в разных сценариях. Мы сравнили наш алгоритм fuser с другими методами, такими как glmnet. Результаты показали, что fuser демонстрирует аналогичную точность в сценарии Same, где обучение и тестирование происходят в одной экологической нищи. Однако в сценарии All, где обучение производится на нескольких экологических ниш, fuser существенно уменьшает ошибки в прогнозировании, улучшая результаты по сравнению с другими алгоритмами.
## Значимость
Наша работа может быть применена в различных областях, где требуется точное предсказание микробных связей, например, в работе с микробными терапиями или в агробио
Abstract
Co-occurrence network inference algorithms have significantly advanced our
understanding of microbiome communities. However, these algorithms typically
analyze microbial associations within samples collected from a single
environmental niche, often capturing only static snapshots rather than dynamic
microbial processes. Previous studies have commonly grouped samples from
different environmental niches together without fully considering how microbial
communities adapt their associations when faced with varying ecological
conditions. Our study addresses this limitation by explicitly investigating
both spatial and temporal dynamics of microbial communities. We analyzed
publicly available microbiome abundance data across multiple locations and time
points, to evaluate algorithm performance in predicting microbial associations
using our proposed Same-All Cross-validation (SAC) framework. SAC evaluates
algorithms in two distinct scenarios: training and testing within the same
environmental niche (Same), and training and testing on combined data from
multiple environmental niches (All). To overcome the limitations of
conventional algorithms, we propose fuser, an algorithm that, while not
entirely new in machine learning, is novel for microbiome community network
inference. It retains subsample-specific signals while simultaneously sharing
relevant information across environments during training. Unlike standard
approaches that infer a single generalized network from combined data, fuser
generates distinct, environment-specific predictive networks. Our results
demonstrate that fuser achieves comparable predictive performance to existing
algorithms such as glmnet when evaluated within homogeneous environments
(Same), and notably reduces test error compared to baseline algorithms in
cross-environment (All) scenarios.
Ссылки и действия
Дополнительные ресурсы: