Deep Generative Models for Discrete Genotype Simulation

2508.09212v1 q-bio.GN, cs.AI, cs.LG 2025-08-16
Авторы:

Sihan Xie, Thierry Tribout, Didier Boichard, Blaise Hanczar, Julien Chiquet, Eric Barrey

Резюме на русском

#### Контекст Генетические данные являются ключевым ресурсом для понимания наследственных факторов в отношении здоровья и заболеваний. Однако доступ к таким данным часто ограничен из-за конфиденциальности и прав собственности, что ограничивает возможности исследователей. Дополнительно, создание моделей, которые могут эффективно использовать эти данные, представляет сложность из-за их большого объема и сложности. Глубокие генерирующие модели (deep generative models) предлагают новые возможности для создания реалистичных генотипов, сохраняя при этом конфиденциальность и обогащая доступ к данным. Несмотря на то, что ранее были разработаны модели для генезирования данных о выражении генов и хаплотипов, работы по генотипам, воспроизводящимся в условном и неусловном виде, по-прежнему остаются недостаточно развиты. Целью данного исследования является разработка и оценка генерирующих моделей, приспособленных для генотипа в обоих условиях, что является более сложной задачей из-за дискретной природы генотипных данных. #### Метод Мы развили и оценили три основных генерирующих модели: Variational Autoencoders (VAEs), Diffusion Models и Generative Adversarial Networks (GANs). Для приспособления этих моделей к дискретной природе генотипа были внесены специальные поправки. Модели были обучены на больших наборах данных, включая все хромосомы у коров и несколько хромосом у человека. Чтобы оценить эффективность, мы использовали многообразие метрик, взятых из глубокого обучения и квантитативных исследований генетики. Наши эксперименты были разработаны для изучения того, насколько эти модели воспроизводят генетические шаблоны и сохраняют ассоциацию между генотипом и фенотипом. #### Результаты Модели, которые мы исследовали, продемонстрировали высокую эффективность в понимании и воспроизведению генетических шаблонов. Они демонстрируют хорошие результаты в сохранении ассоциации между генотипом и фенотипом. Мы провели подробный анализ, сравнивая полученные результаты с другими подходами в области генетической моделирования. Это позволило нам выделить сильные и слабые стороны каждой модели. Наши результаты показывают, что VAE, Diffusion Models и GANs могут эффективно воспроизводить генотипы, но с разными успехами в зависимости от конкретной ситуации. #### Значимость Наши находки имеют большое значение для различных областей, включая исследования генетики, разработку новых лекарств и понимание наследственных заболеваний. Модели, разработанные в этом исследовании, открывают новые пути для эффективного использования данных о генотипе без необходимости пр

Abstract

Deep generative models open new avenues for simulating realistic genomic data while preserving privacy and addressing data accessibility constraints. While previous studies have primarily focused on generating gene expression or haplotype data, this study explores generating genotype data in both unconditioned and phenotype-conditioned settings, which is inherently more challenging due to the discrete nature of genotype data. In this work, we developed and evaluated commonly used generative models, including Variational Autoencoders (VAEs), Diffusion Models, and Generative Adversarial Networks (GANs), and proposed adaptation tailored to discrete genotype data. We conducted extensive experiments on large-scale datasets, including all chromosomes from cow and multiple chromosomes from human. Model performance was assessed using a well-established set of metrics drawn from both deep learning and quantitative genetics literature. Our results show that these models can effectively capture genetic patterns and preserve genotype-phenotype association. Our findings provide a comprehensive comparison of these models and offer practical guidelines for future research in genotype simulation. We have made our code publicly available at https://github.com/SihanXXX/DiscreteGenoGen.

Ссылки и действия