scI2CL: Effectively Integrating Single-cell Multi-omics by Intra- and Inter-omics Contrastive Learning

2508.18304v1 q-bio.GN, cs.AI, cs.LG, q-bio.CB 2025-08-28
Авторы:

Wuchao Liu, Han Peng, Wengen Li, Yichao Zhang, Jihong Guan, Shuigeng Zhou

Резюме на русском

#### Контекст Одним из ключевых аспектов современных исследований в области биологии и медицины является анализ single-cell multi-omics данных, которые содержат богатый объем информации о состояниях клеток. Эти данные позволяют изучить гетерогенность клеток, развитие заболеваний и основные биологические процессы. Однако анализ таких данных сталкивается с рядом затруднений, включая нехватку эффективных методов для моделирования и интерпретации сложных взаимосвязей между различными омосом данных. Такие проблемы становятся особенно актуальными при изучении динамического процесса развития клеток, где необходимы точные приемлемые решения для оптимальной интеграции и анализа многоомных данных. #### Метод scI2CL — это новая фреймворк, основанная на принципах **intra- и inter-omics contrastive learning**, предназначенная для эффективной интеграции multi-omics данных. Метод использует контрастирующее обучение для выявления интересных зависимостей внутри и между различными омосом данных. Технически, scI2CL включает в себя нейросетевую архитектуру, которая способствует обучению высококачественных многоомных представлений клеток. Эти представления используются для различных задач, таких как кластеризация клеток, определение подтипов клеток и построение траекторий развития клеток. Основной целью фреймворка является повышение точности и детализации анализа сложных multi-omics данных. #### Результаты С помощью scI2CL проведены ряд экспериментов на четырьмя различными наборами данных. Эти эксперименты доказали, что фреймворк превосходит существующие методы в задачах кластеризации клеток, субтипизации клеток и построения траекторий развития. Например, в задаче кластеризации, scI2CL показал лучшие результаты по сравнению с восьми современными подходами на нескольких реальных наборах данных. В задаче подтипизации, scI2CL удалось выделить три новых подпроцесса развития моноцитов, которые не были выявлены ранее. Кроме того, scI2CL удалось точно построить траекторию развития клеток из гемопоэтических стволовых клеток до зрелых Memory B-клеток, что не достигалось ни одним из предыдущих методов. Эти результаты указывают на высокую точность и способность scI2CL работать с самыми сложными задачами. #### Значимость scI2CL может применяться в различных областях, включая геномику, гетогенность клеток и исследования биологических процессов. Его основное преимущество заключается в том, что он позволяет эффективно объединять и анализировать разнообразные multi-omics данные, обнаруживая зависимости и характеристики, которые были бы недоступны при использовании отдельных омосов. Этот подход может привести

Abstract

Single-cell multi-omics data contain huge information of cellular states, and analyzing these data can reveal valuable insights into cellular heterogeneity, diseases, and biological processes. However, as cell differentiation \& development is a continuous and dynamic process, it remains challenging to computationally model and infer cell interaction patterns based on single-cell multi-omics data. This paper presents scI2CL, a new single-cell multi-omics fusion framework based on intra- and inter-omics contrastive learning, to learn comprehensive and discriminative cellular representations from complementary multi-omics data for various downstream tasks. Extensive experiments of four downstream tasks validate the effectiveness of scI2CL and its superiority over existing peers. Concretely, in cell clustering, scI2CL surpasses eight state-of-the-art methods on four widely-used real-world datasets. In cell subtyping, scI2CL effectively distinguishes three latent monocyte cell subpopulations, which are not discovered by existing methods. Simultaneously, scI2CL is the only method that correctly constructs the cell developmental trajectory from hematopoietic stem and progenitor cells to Memory B cells. In addition, scI2CL resolves the misclassification of cell types between two subpopulations of CD4+ T cells, while existing methods fail to precisely distinguish the mixed cells. In summary, scI2CL can accurately characterize cross-omics relationships among cells, thus effectively fuses multi-omics data and learns discriminative cellular representations to support various downstream analysis tasks.

Ссылки и действия