Bounding Causal Effects and Counterfactuals

2508.13607v1 cs.LG, cs.AI, stat.ME, 62A01 (Foundations of statistics), 68T01 (Artificial intelligence, general), G.3; I.2.6 2025-08-21
Авторы:

Tobias Maringgele

Резюме на русском

#### Контекст Область исследования казуального вывода (causal inference) широко распространена в многих научных и практических областях, таких как экономика, медицина и социальные науки. Однако, попытки оценить казуальные эффекты часто сталкиваются с значительными ограничениями. Существуют сильные априорные гипотезы, такие как "нет неизвестных конфундирующих факторов" или "соблюдается полная сдержанность", которые часто не выполняются на практике. Ошибки в принятии этих гипотез могут привести к неточным выводам. Это приводит к ограниченному доверию к результатам. Метод получения разрешений (partial identification) предлагает альтернативу. Он не полагается на сильные, но часто непроверяемые, гипотезы. Вместо этого он формирует диапазоны, отображающие неопределенность данных. Несмотря на его теоретическую ценность, метод часто остается неиспользуемым в практических задачах, возникают проблемы с логической структурой и отсутствием руководства для применения. #### Метод Данная работа рассматривает различные методы расчета диапазонов в рамках казуального вывода. Она сочетает символьные, оптимизационно-ориентированные и информационно-теоретические подходы в единую систему. Был разработан расширенный подход с использованием энтропии для задач, таких как вероятность необходимости и достаточности (PNS). Исследование проводилось на основе тысяч симуляций, включая как дискретные, так и непрерывные задачи. Методы были оценены по критериям точности диапазонов, эффективности вычислений и устойчивости к нарушению гипотез. #### Результаты Результаты показали, что разные методы дают разные результаты в зависимости от характера данных и задачи. Был выявлены методы, дают точные результаты в определенных условиях, но могут быть менее эффективны в других. Для повышения удобства использования, в рамках работы был разработан собственный инструмент CausalBoundingEngine, который объединяет многие методы в единое целое. Была также разработана модель машинного обучения для предсказания наиболее продуктивного метода в зависимости от характера данных. #### Значимость Полученные результаты могут быть использованы в многих научных и практических областях, где необходимо рассчитать казуальные эффекты с учетом неопределенности данных. Например, в медицине для оценки влияния лекарств, в экономике для оценки влияния политик и практически во всех ситуациях, где наличие неизвестных факторов может повлиять на выводы. В отличие от сильных гипотез, метод расчета диапазонов обеспечивает гибкость и точность в условиях неопределенности. #### Выводы Рабо

Abstract

Causal inference often hinges on strong assumptions - such as no unmeasured confounding or perfect compliance - that are rarely satisfied in practice. Partial identification offers a principled alternative: instead of relying on unverifiable assumptions to estimate causal effects precisely, it derives bounds that reflect the uncertainty inherent in the data. Despite its theoretical appeal, partial identification remains underutilized in applied work, in part due to the fragmented nature of existing methods and the lack of practical guidance. This thesis addresses these challenges by systematically comparing a diverse set of bounding algorithms across multiple causal scenarios. We implement, extend, and unify state-of-the-art methods - including symbolic, optimization-based, and information-theoretic approaches - within a common evaluation framework. In particular, we propose an extension of a recently introduced entropy-bounded method, making it applicable to counterfactual queries such as the Probability of Necessity and Sufficiency (PNS). Our empirical study spans thousands of randomized simulations involving both discrete and continuous data-generating processes. We assess each method in terms of bound tightness, computational efficiency, and robustness to assumption violations. To support practitioners, we distill our findings into a practical decision tree for algorithm selection and train a machine learning model to predict the best-performing method based on observable data characteristics. All implementations are released as part of an open-source Python package, CausalBoundingEngine, which enables users to apply and compare bounding methods through a unified interface.

Ссылки и действия