Robust Multi-Omics Integration from Incomplete Modalities Significantly Improves Prediction of Alzheimer's Disease
2509.20842v1
cs.LG, cs.AI, I.2.1; J.3
2025-09-27
Авторы:
Sungjoon Park, Kyungwook Lee, Soorin Yim, Doyeong Hwang, Dongyun Kim, Soonyoung Lee, Amy Dunn, Daniel Gatti, Elissa Chesler, Kristen O'Connell, Kiyoung Kim
Резюме на русском
#### Контекст
Одной из главных задач современной биоинформатики является интеграция многообразных данных о биомолекулярных интеракциях, полученных с помощью различных методов анализа (многообразия, или omics). Эти данные позволяют понять механизмы развития многих заболеваний, включая Альцгеймерскую болезнь (АБ). Однако интеграция данных становится сложной, когда некоторые модальности отсутствуют в каких-либо выборках. Эта проблема ограничивает эффективность использования многообразий для прогнозирования и особенно всплывает при исследовании заболеваний, характеризующихся сложным клиническим и биологическим течением, как АБ. Наша мотивация заключается в разработке метода, который бы способствовал эффективной интеграции многообразий, даже при их неполном представлении.
#### Метод
Мы предлагаем MOIRA (Multi-Omics Integration with Robustness to Absent modalities) — метод, который использует адаптивную аггрегацию данных и статистические методы для уменьшения влияния отсутствующих модальностей. MOIRA проецирует каждый набор данных из разных модальностей на общий пространственный вектор, где происходит взвешивание контрибьюции каждой модальности с помощью леарнинг-процесса. Также используется механизм робастности для минимизации влияния отсутствующих данных. Метод работает с необработанными данными и может применяться в сценариях, когда некоторые модальности отсутствуют во всей выборке или в подвыборке. Эта гибкость позволяет использовать MOIRA в различных стадиях проектирования и анализа многообразий.
#### Результаты
Мы проверили MOIRA на данных из Religious Order Study и Memory and Aging Project (ROSMAP), датасетом, широко используемым для исследования АБ. Метод MOIRA показал значительное улучшение точности прогноза АБ по сравнению с имеющимися методами интеграции многообразий. Также проведены абляционные исследования, подтвердившие вклад каждой модальности в финальный результат. Был проведен анализ важности признаков, в том числе определение генов и маркеров, связанных с АБ, которые соответствуют результатам предыдущих исследований. Это подтверждает ценность и биологическую актуальность полученных результатов.
#### Значимость
Метод MOIRA может быть применен в различных областях, где имеется проблема отсутствия данных, например, в биомедицинских исследованиях, генетике, экологии и др. Он обеспечивает более гибкую и эффективную интеграцию данных, не требуя полноты всех модальностей. Это предоставляет новые возможности для раннего прогноза заболеваний, в том числе АБ, даже при неполных данных. Помимо этого, MOIRA может быть использован для дальне
Abstract
Multi-omics data capture complex biomolecular interactions and provide
insights into metabolism and disease. However, missing modalities hinder
integrative analysis across heterogeneous omics. To address this, we present
MOIRA (Multi-Omics Integration with Robustness to Absent modalities), an early
integration method enabling robust learning from incomplete omics data via
representation alignment and adaptive aggregation. MOIRA leverages all samples,
including those with missing modalities, by projecting each omics dataset onto
a shared embedding space where a learnable weighting mechanism fuses them.
Evaluated on the Religious Order Study and Memory and Aging Project (ROSMAP)
dataset for Alzheimer's Disease (AD), MOIRA outperformed existing approaches,
and further ablation studies confirmed modality-wise contributions. Feature
importance analysis revealed AD-related biomarkers consistent with prior
literature, highlighting the biological relevance of our approach.