Bounding Causal Effects and Counterfactuals
2508.13607v1
cs.LG, cs.AI, stat.ME, 62A01 (Foundations of statistics), 68T01 (Artificial intelligence,
general), G.3; I.2.6
2025-08-21
Авторы:
Tobias Maringgele
Резюме на русском
#### Контекст
Область исследования казуального вывода (causal inference) широко распространена в многих научных и практических областях, таких как экономика, медицина и социальные науки. Однако, попытки оценить казуальные эффекты часто сталкиваются с значительными ограничениями. Существуют сильные априорные гипотезы, такие как "нет неизвестных конфундирующих факторов" или "соблюдается полная сдержанность", которые часто не выполняются на практике. Ошибки в принятии этих гипотез могут привести к неточным выводам. Это приводит к ограниченному доверию к результатам.
Метод получения разрешений (partial identification) предлагает альтернативу. Он не полагается на сильные, но часто непроверяемые, гипотезы. Вместо этого он формирует диапазоны, отображающие неопределенность данных. Несмотря на его теоретическую ценность, метод часто остается неиспользуемым в практических задачах, возникают проблемы с логической структурой и отсутствием руководства для применения.
#### Метод
Данная работа рассматривает различные методы расчета диапазонов в рамках казуального вывода. Она сочетает символьные, оптимизационно-ориентированные и информационно-теоретические подходы в единую систему. Был разработан расширенный подход с использованием энтропии для задач, таких как вероятность необходимости и достаточности (PNS). Исследование проводилось на основе тысяч симуляций, включая как дискретные, так и непрерывные задачи. Методы были оценены по критериям точности диапазонов, эффективности вычислений и устойчивости к нарушению гипотез.
#### Результаты
Результаты показали, что разные методы дают разные результаты в зависимости от характера данных и задачи. Был выявлены методы, дают точные результаты в определенных условиях, но могут быть менее эффективны в других. Для повышения удобства использования, в рамках работы был разработан собственный инструмент CausalBoundingEngine, который объединяет многие методы в единое целое. Была также разработана модель машинного обучения для предсказания наиболее продуктивного метода в зависимости от характера данных.
#### Значимость
Полученные результаты могут быть использованы в многих научных и практических областях, где необходимо рассчитать казуальные эффекты с учетом неопределенности данных. Например, в медицине для оценки влияния лекарств, в экономике для оценки влияния политик и практически во всех ситуациях, где наличие неизвестных факторов может повлиять на выводы. В отличие от сильных гипотез, метод расчета диапазонов обеспечивает гибкость и точность в условиях неопределенности.
#### Выводы
Рабо
Abstract
Causal inference often hinges on strong assumptions - such as no unmeasured
confounding or perfect compliance - that are rarely satisfied in practice.
Partial identification offers a principled alternative: instead of relying on
unverifiable assumptions to estimate causal effects precisely, it derives
bounds that reflect the uncertainty inherent in the data. Despite its
theoretical appeal, partial identification remains underutilized in applied
work, in part due to the fragmented nature of existing methods and the lack of
practical guidance. This thesis addresses these challenges by systematically
comparing a diverse set of bounding algorithms across multiple causal
scenarios. We implement, extend, and unify state-of-the-art methods - including
symbolic, optimization-based, and information-theoretic approaches - within a
common evaluation framework. In particular, we propose an extension of a
recently introduced entropy-bounded method, making it applicable to
counterfactual queries such as the Probability of Necessity and Sufficiency
(PNS). Our empirical study spans thousands of randomized simulations involving
both discrete and continuous data-generating processes. We assess each method
in terms of bound tightness, computational efficiency, and robustness to
assumption violations. To support practitioners, we distill our findings into a
practical decision tree for algorithm selection and train a machine learning
model to predict the best-performing method based on observable data
characteristics.
All implementations are released as part of an open-source Python package,
CausalBoundingEngine, which enables users to apply and compare bounding methods
through a unified interface.