Deep Generative Models for Discrete Genotype Simulation
2508.09212v1
q-bio.GN, cs.AI, cs.LG
2025-08-16
Авторы:
Sihan Xie, Thierry Tribout, Didier Boichard, Blaise Hanczar, Julien Chiquet, Eric Barrey
Резюме на русском
#### Контекст
Генетические данные являются ключевым ресурсом для понимания наследственных факторов в отношении здоровья и заболеваний. Однако доступ к таким данным часто ограничен из-за конфиденциальности и прав собственности, что ограничивает возможности исследователей. Дополнительно, создание моделей, которые могут эффективно использовать эти данные, представляет сложность из-за их большого объема и сложности. Глубокие генерирующие модели (deep generative models) предлагают новые возможности для создания реалистичных генотипов, сохраняя при этом конфиденциальность и обогащая доступ к данным. Несмотря на то, что ранее были разработаны модели для генезирования данных о выражении генов и хаплотипов, работы по генотипам, воспроизводящимся в условном и неусловном виде, по-прежнему остаются недостаточно развиты. Целью данного исследования является разработка и оценка генерирующих моделей, приспособленных для генотипа в обоих условиях, что является более сложной задачей из-за дискретной природы генотипных данных.
#### Метод
Мы развили и оценили три основных генерирующих модели: Variational Autoencoders (VAEs), Diffusion Models и Generative Adversarial Networks (GANs). Для приспособления этих моделей к дискретной природе генотипа были внесены специальные поправки. Модели были обучены на больших наборах данных, включая все хромосомы у коров и несколько хромосом у человека. Чтобы оценить эффективность, мы использовали многообразие метрик, взятых из глубокого обучения и квантитативных исследований генетики. Наши эксперименты были разработаны для изучения того, насколько эти модели воспроизводят генетические шаблоны и сохраняют ассоциацию между генотипом и фенотипом.
#### Результаты
Модели, которые мы исследовали, продемонстрировали высокую эффективность в понимании и воспроизведению генетических шаблонов. Они демонстрируют хорошие результаты в сохранении ассоциации между генотипом и фенотипом. Мы провели подробный анализ, сравнивая полученные результаты с другими подходами в области генетической моделирования. Это позволило нам выделить сильные и слабые стороны каждой модели. Наши результаты показывают, что VAE, Diffusion Models и GANs могут эффективно воспроизводить генотипы, но с разными успехами в зависимости от конкретной ситуации.
#### Значимость
Наши находки имеют большое значение для различных областей, включая исследования генетики, разработку новых лекарств и понимание наследственных заболеваний. Модели, разработанные в этом исследовании, открывают новые пути для эффективного использования данных о генотипе без необходимости пр
Abstract
Deep generative models open new avenues for simulating realistic genomic data
while preserving privacy and addressing data accessibility constraints. While
previous studies have primarily focused on generating gene expression or
haplotype data, this study explores generating genotype data in both
unconditioned and phenotype-conditioned settings, which is inherently more
challenging due to the discrete nature of genotype data. In this work, we
developed and evaluated commonly used generative models, including Variational
Autoencoders (VAEs), Diffusion Models, and Generative Adversarial Networks
(GANs), and proposed adaptation tailored to discrete genotype data. We
conducted extensive experiments on large-scale datasets, including all
chromosomes from cow and multiple chromosomes from human. Model performance was
assessed using a well-established set of metrics drawn from both deep learning
and quantitative genetics literature. Our results show that these models can
effectively capture genetic patterns and preserve genotype-phenotype
association. Our findings provide a comprehensive comparison of these models
and offer practical guidelines for future research in genotype simulation. We
have made our code publicly available at
https://github.com/SihanXXX/DiscreteGenoGen.
Ссылки и действия
Дополнительные ресурсы: