Diffusion and Flow-based Copulas: Forgetting and Remembering Dependencies
2509.19707v1
stat.ML, cs.LG, stat.CO, stat.ME
2025-09-26
Авторы:
David Huk, Theodoros Damoulas
Резюме на русском
## Контекст
Область исследования сосредоточена на моделировании многомерных зависимостей в данных с помощью copulas. Эти модели широко применяются в различных областях, включая финансы, биологию и компьютерное зрение. Однако существующие модели страдают от ограниченности аппарата и сложности масштабирования для высокомерных и многомодальных данных. Эти проблемы возникают из-за рестриктивных предположений, которые не подходят для решения задач, требующих точного понимания зависимостей в сложных наборах данных. Мотивация для данного исследования заключается в развитии более гибких и эффективных моделей copulas, которые могут справляться с вызовами современных задач.
## Метод
Предлагаемые методы основываются на принципах диффузии и потоков, которые допускают управляемое забывание зависимостей между переменными. Две основные процедуры — ForgetCopula и SampleCopula — демонстрируют, как зависимости между переменными могут быть постепенно забыты, оставив распределения по отдельным переменным неизменными. Эти процессы гарантируют, что результирующие модели остаются валидными copulas. Для восстановления забытых зависимостей используется метод обучения, который позволяет модели оптимально восстановить исходные copulas. Две основные реализации различаются по фокусу: первая — на прямом данности, а вторая — на эффективном сэмплировании.
## Результаты
Эксперименты проводились на наборах данных, включающих сложные и высокомерные зависимости, такие как симуляции из научных областей и изображения. Наше решение показало значительное превосходство над существующими копулярными моделями в терминах точности моделирования зависимостей и эффективности работы. Мы демонстрируем, что наша модель способна справляться с задачами, в которых простые copulas или другие модели столкнулись с трудностями. Эмпирические результаты подтверждают высокую точность и масштабируемость наших методов в моделировании сложных зависимостей.
## Значимость
Промышленные приложения, включая финансовый мониторинг, биологический анализ и компьютерное зрение, могут выгодно использовать нашу модель для обработки многомерных и нетривиальных зависимостей. Наша модель предлагает выигрыш в точности и масштабируемости, открывая новые возможности для применения copulas в задачах, где ранее они не были применимы. Это демонстрирует возможность использования нашего подхода для решения задач с высокой сложностью, которые требуют точных моделей зависимостей.
## Выводы
Мы представили методы Diffusion and Flow-based Copulas, которые представляют собой первый подход к моделированию copulas, основанный на забывании и восстановлении зависимостей. Наши результаты показали превосходство
Abstract
Copulas are a fundamental tool for modelling multivariate dependencies in
data, forming the method of choice in diverse fields and applications. However,
the adoption of existing models for multimodal and high-dimensional
dependencies is hindered by restrictive assumptions and poor scaling. In this
work, we present methods for modelling copulas based on the principles of
diffusions and flows. We design two processes that progressively forget
inter-variable dependencies while leaving dimension-wise distributions
unaffected, provably defining valid copulas at all times. We show how to obtain
copula models by learning to remember the forgotten dependencies from each
process, theoretically recovering the true copula at optimality. The first
instantiation of our framework focuses on direct density estimation, while the
second specialises in expedient sampling. Empirically, we demonstrate the
superior performance of our proposed methods over state-of-the-art copula
approaches in modelling complex and high-dimensional dependencies from
scientific datasets and images. Our work enhances the representational power of
copula models, empowering applications and paving the way for their adoption on
larger scales and more challenging domains.