Effects of Distributional Biases on Gradient-Based Causal Discovery in the Bivariate Categorical Case
2509.01621v1
cs.LG, stat.ML
2025-09-05
Авторы:
Tim Schwabe, Moritz Lange, Laurenz Wiskott, Maribel Acosta
Резюме на русском
## Контекст
Градиент-ориентированные методы открывают новые возможности для выявления причинно-следственных связей в данных, обеспечивая эффективность и масштабируемость. Однако они могут быть чувствительны к распределенияльным биасам в исходных данных, которые могут исказить выводы о причинно-следственных структурах. Эти биасы могут возникнуть из-за неоднородности распределений в данных, что требует глубокого понимания их источника и влияния. Например, в бивариатных категориальных случаях, где структуры зависимостей могут быть неявными, распределенияльные аспекты играют ключевую роль. В данном исследовании мы фокусируемся на изучении этих проблем и на поиске способов их контроля в рамках градиентных методов.
## Метод
Мы используем синтетические данные с Дирихлевскими предварительными распределениями для моделирования распределенияных биасов. Два простых моделирования были разработаны для изучения влияния этих биасов: модель, оптимизирующая маргинальные распределения, и модель, оптимизирующая условные распределения. Использование градиентных методов в этих моделях позволяет изучить как выявление причинно-следственных связей, так и уязвимость этих моделей к распределенияльным аспектам. Методы тестирования включали синтетические эксперименты с контролируемыми условиями, чтобы изучить точность и стабильность моделей в разных сценариях.
## Результаты
Наши эксперименты показали, что оба рассматриваемые биаса могут иметь значительное влияние на результаты градиентных методов. Мы обнаружили, что Marginal Distribution Asymmetry приводит к неравномерному влиянию на факторизацию, в то время как Marginal Distribution Shift Asymmetry может привести к чрезмерной скорости изменения в некоторых переменных. Мы также показали, что эти эффекты могут быть существенно уменьшены при настройке параметров модели и применении специальных мер контроля распределений. Эти находки подтверждают, что удаление конкуренции между различными причинно-следственными факторизациями может сделать модели более устойчивыми к этим распределенияльным аспектам.
## Значимость
Наше исследование имеет практическое значение для разработки более надежных градиентных методов в области причинно-следственных отношений. Оно может быть применено в различных областях, таких как машинное обучение, биология и социальные науки, где распределенияльные аспекты могут исказить выводы. Значительное преимущество нашей работы заключается в том, что она предоставляет конкретные рекомендации для снижения влияния распределенияльных биасов, что может улучшить достоверность исследований в этих областях.
## Выводы
Мы установили, что распре
Abstract
Gradient-based causal discovery shows great potential for deducing causal
structure from data in an efficient and scalable way. Those approaches however
can be susceptible to distributional biases in the data they are trained on. We
identify two such biases: Marginal Distribution Asymmetry, where differences in
entropy skew causal learning toward certain factorizations, and Marginal
Distribution Shift Asymmetry, where repeated interventions cause faster shifts
in some variables than in others. For the bivariate categorical setup with
Dirichlet priors, we illustrate how these biases can occur even in controlled
synthetic data. To examine their impact on gradient-based methods, we employ
two simple models that derive causal factorizations by learning marginal or
conditional data distributions - a common strategy in gradient-based causal
discovery. We demonstrate how these models can be susceptible to both biases.
We additionally show how the biases can be controlled. An empirical evaluation
of two related, existing approaches indicates that eliminating competition
between possible causal factorizations can make models robust to the presented
biases.
Ссылки и действия
Дополнительные ресурсы: