Effects of Distributional Biases on Gradient-Based Causal Discovery in the Bivariate Categorical Case

2509.01621v1 cs.LG, stat.ML 2025-09-05
Авторы:

Tim Schwabe, Moritz Lange, Laurenz Wiskott, Maribel Acosta

Резюме на русском

## Контекст Градиент-ориентированные методы открывают новые возможности для выявления причинно-следственных связей в данных, обеспечивая эффективность и масштабируемость. Однако они могут быть чувствительны к распределенияльным биасам в исходных данных, которые могут исказить выводы о причинно-следственных структурах. Эти биасы могут возникнуть из-за неоднородности распределений в данных, что требует глубокого понимания их источника и влияния. Например, в бивариатных категориальных случаях, где структуры зависимостей могут быть неявными, распределенияльные аспекты играют ключевую роль. В данном исследовании мы фокусируемся на изучении этих проблем и на поиске способов их контроля в рамках градиентных методов. ## Метод Мы используем синтетические данные с Дирихлевскими предварительными распределениями для моделирования распределенияных биасов. Два простых моделирования были разработаны для изучения влияния этих биасов: модель, оптимизирующая маргинальные распределения, и модель, оптимизирующая условные распределения. Использование градиентных методов в этих моделях позволяет изучить как выявление причинно-следственных связей, так и уязвимость этих моделей к распределенияльным аспектам. Методы тестирования включали синтетические эксперименты с контролируемыми условиями, чтобы изучить точность и стабильность моделей в разных сценариях. ## Результаты Наши эксперименты показали, что оба рассматриваемые биаса могут иметь значительное влияние на результаты градиентных методов. Мы обнаружили, что Marginal Distribution Asymmetry приводит к неравномерному влиянию на факторизацию, в то время как Marginal Distribution Shift Asymmetry может привести к чрезмерной скорости изменения в некоторых переменных. Мы также показали, что эти эффекты могут быть существенно уменьшены при настройке параметров модели и применении специальных мер контроля распределений. Эти находки подтверждают, что удаление конкуренции между различными причинно-следственными факторизациями может сделать модели более устойчивыми к этим распределенияльным аспектам. ## Значимость Наше исследование имеет практическое значение для разработки более надежных градиентных методов в области причинно-следственных отношений. Оно может быть применено в различных областях, таких как машинное обучение, биология и социальные науки, где распределенияльные аспекты могут исказить выводы. Значительное преимущество нашей работы заключается в том, что она предоставляет конкретные рекомендации для снижения влияния распределенияльных биасов, что может улучшить достоверность исследований в этих областях. ## Выводы Мы установили, что распре

Abstract

Gradient-based causal discovery shows great potential for deducing causal structure from data in an efficient and scalable way. Those approaches however can be susceptible to distributional biases in the data they are trained on. We identify two such biases: Marginal Distribution Asymmetry, where differences in entropy skew causal learning toward certain factorizations, and Marginal Distribution Shift Asymmetry, where repeated interventions cause faster shifts in some variables than in others. For the bivariate categorical setup with Dirichlet priors, we illustrate how these biases can occur even in controlled synthetic data. To examine their impact on gradient-based methods, we employ two simple models that derive causal factorizations by learning marginal or conditional data distributions - a common strategy in gradient-based causal discovery. We demonstrate how these models can be susceptible to both biases. We additionally show how the biases can be controlled. An empirical evaluation of two related, existing approaches indicates that eliminating competition between possible causal factorizations can make models robust to the presented biases.

Ссылки и действия