Design of Experiment for Discovering Directed Mixed Graph

2509.01887v1 stat.ML, cs.LG 2025-09-05
Авторы:

Haijie Xu, Chen Zhang

Резюме на русском

#### Контекст Одна из основных задач в статистическом обучении и теории графов — определение структуры как циклических, так и нециклических связей между переменными, например, в моделях структурных каузальных моделей (SCM). Такие модели позволяют глубоко проникнуться в природу систем, но их исследование становится сложнее при наличии циклических связей и усложнении ситуаций с независимостью. Изучение этих проблем может быть применено в различных областях, включая биологию, экономику и социальные науки. В данной статье авторы сосредоточились на разработке эффективных методов для выявления структуры графов с как положительными, так и отрицательными связями, что позволяет улучшить понимание сложных систем. #### Метод Авторы предлагают двухэтапный подход для решения задачи выявления как циклических, так и бинарных связей. Этап первый — применение тестов двойной отделимости ($d$-separation) и $\sigma$-отделимости для определения возможных связей. Это позволяет аккуратно отфильтровать потенциальные противоречия в данных. На втором этапе используются до-эксперименты (do-see tests) для уточнения взаимосвязей. Эта модель основывается на идее, что до-эксперименты позволяют избежать неточностей, которые могут возникнуть при обычных тестах независимости. Разработанная архитектура использует способы для получения графа, в котором четко выделяются двунаправленные связи, но при этом оставляется возможность выявления циклических связей. #### Результаты Авторы проверили свой подход на различных синтетических и реальных данных. Они доказали, что используемый метод позволяет выявить большую часть структуры графа, в том числе и циклические связи, при этом сохраняя достаточную точность. За счет сочетания методов тестирования независимости и до-экспериментов, алгоритмы демонстрируют высокую эффективность в решении сложных задач выявления структуры. Также было доказано, что алгоритмы могут работать с ограниченными ресурсами (например, ограниченным числом интервенций), что делает их применимыми в реальных условиях. #### Значимость Предложенные методы могут быть применены в различных областях, где требуется выявить структуру систем, включая биологические системы, модели экономических процессов и социальных сетей. Основное преимущество заключается в том, что алгоритмы могут работать в условиях, когда данные содержат циклы и наличие независимости не гарантируется. Это открывает широкие возможности для улучшения качества моделей в сложных и нелинейных системах. #### Выводы Авторы подтвердили, что их подход является эффективным для выявления структуры графо

Abstract

We study the problem of experimental design for accurately identifying the causal graph structure of a simple structural causal model (SCM), where the underlying graph may include both cycles and bidirected edges induced by latent confounders. The presence of cycles renders it impossible to recover the graph skeleton using observational data alone, while confounding can further invalidate traditional conditional independence (CI) tests in certain scenarios. To address these challenges, we establish lower bounds on both the maximum number of variables that can be intervened upon in a single experiment and the total number of experiments required to identify all directed edges and non-adjacent bidirected edges. Leveraging both CI tests and do see tests, and accounting for $d$ separation and $\sigma$ separation, we develop two classes of algorithms, i.e., bounded and unbounded, that can recover all causal edges except for double adjacent bidirected edges. We further show that, up to logarithmic factors, the proposed algorithms are tight with respect to the derived lower bounds.

Ссылки и действия