📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Comparing Two Proxy Methods for Causal Identification

2025-12-02

Авторы:

Helen Guo, Elizabeth L. Ogburn, Ilya Shpitser

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Identifying causal effects in the presence of unmeasured variables is a fundamental challenge in causal inference, for which proxy variable methods have emerged as a powerful solution. We contrast two major approaches in this framework: (1) bridge equation methods, which leverage solutions to integral equations to recover causal targets, and (2) array decomposition methods, which recover latent factors composing counterfactual quantities by exploiting unique determination of eigenspaces. We comp...

ID: 2512.00175v1 stat.ME, cs.LG, stat.ML

arXiv PDF

📄 A Set of Rules for Model Validation

2025-11-27

Авторы:

José Camacho

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The validation of a data-driven model is the process of assessing the model's ability to generalize to new, unseen data in the population of interest. This paper proposes a set of general rules for model validation. These rules are designed to help practitioners create reliable validation plans and report their results transparently. While no validation scheme is flawless, these rules can help practitioners ensure their strategy is sufficient for practical use, openly discuss any limitations of ...

ID: 2511.20711v1 stat.ME, cs.LG, stat.ML

arXiv PDF

📄 Aggregating Conformal Prediction Sets via α-Allocation

2025-11-19

Авторы:

Congbin Xu, Yue Yu, Haojie Ren, Zhaojun Wang, Changliang Zou

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Conformal prediction offers a distribution-free framework for constructing prediction sets with finite-sample coverage. Yet, efficiently leveraging multiple conformity scores to reduce prediction set size remains a major open challenge. Instead of selecting a single best score, this work introduces a principled aggregation strategy, COnfidence-Level Allocation (COLA), that optimally allocates confidence levels across multiple conformal prediction sets to minimize empirical set size while maintai...

ID: 2511.12065v1 stat.ME, cs.LG, stat.ML

arXiv PDF

📄 Estimating Total Effects in Bipartite Experiments with Spillovers and Partial Eligibility

2025-11-18

Авторы:

Albert Tan, Mohsen Bayati, James Nordlund, Roman Istomin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We study randomized experiments in bipartite systems where only a subset of treatment-side units are eligible for assignment while all units continue to interact, generating interference. We formalize eligibility-constrained bipartite experiments and define estimands aligned with full deployment: the Primary Total Treatment Effect (PTTE) on eligible units and the Secondary Total Treatment Effect (STTE) on ineligible units. Under randomization within the eligible set, we give identification condi...

ID: 2511.11564v1 stat.ME, cs.LG, stat.ML

arXiv PDF

📄 Response to Discussions of "Causal and Counterfactual Views of Missing Data Models"

2025-10-18

Авторы:

Razieh Nabi, Rohit Bhattacharya, Ilya Shpitser, James M. Robins

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We are grateful to the discussants, Levis and Kennedy [2025], Luo and Geng [2025], Wang and van der Laan [2025], and Yang and Kim [2025], for their thoughtful comments on our paper (Nabi et al., 2025). In this rejoinder, we summarize our main contributions and respond to each discussion in turn.

ID: 2510.14694v1 stat.ME, cs.LG, stat.ML

arXiv PDF

📄 Reliability Sensitivity with Response Gradient

2025-10-14

Авторы:

Siu-Kui Au, Zi-Jun Cao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Engineering risk is concerned with the likelihood of failure and the scenarios when it occurs. The sensitivity of failure probability to change in system parameters is relevant to risk-informed decision making. Computing sensitivity is at least one level more difficult than the probability itself, which is already challenged by a large number of input random variables, rare events and implicit nonlinear `black-box' response. Finite difference with Monte Carlo probability estimates is spurious, r...

ID: 2510.09315v1 stat.ME, cs.LG, stat.ML

arXiv PDF

📄 A Greedy PDE Router for Blending Neural Operators and Classical Methods

2025-10-01

Авторы:

Sahana Rayan, Yash Patel, Ambuj Tewari

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

When solving PDEs, classical numerical solvers are often computationally expensive, while machine learning methods can suffer from spectral bias, failing to capture high-frequency components. Designing an optimal hybrid iterative solver--where, at each iteration, a solver is selected from an ensemble of solvers to leverage their complementary strengths--poses a challenging combinatorial problem. While the greedy selection strategy is desirable for its constant-factor approximation guarantee to t...

ID: 2509.24814v1 stat.ME, cs.LG, stat.ML

arXiv PDF

📄 Statistical Inference Leveraging Synthetic Data with Distribution-Free Guarantees

2025-09-26

Авторы:

Meshi Bashari, Yonghoon Lee, Roy Maor Lotan, Edgar Dobriban, Yaniv Romano

## Контекст В последние годы синтетические данные, полученные с помощью развитых ИИ-моделей или дополнительно сбором в связанных задачах, приобрели важное место в области статистического анализа. Однако использование таких данных для статистического вывода связано с рядом проблем. Например, синтетические данные могут иметь недостатки в качестве или несоответствие к реальным данным, что приводит к негативному влиянию на результаты. Для решения этих проблем требуется гибкий подход, который мог бы объединить синтетические и реальные данные, обеспечивая безопасное и эффективное использование информации. Такой подход является необходимым для улучшения точности и надежности статистических выводов. ## Метод Мы предлагаем GEneral Synthetic-Powered Inference (GESPI) — рамочный подход, который может обернуть в себя любую статистическую процедуру. GESPI адаптивно использует синтетические данные для повышения эффективности выборки, но при этом незаметно переключается на стандартный метод, используя только реальные данные, если синтетические данные имеют низкое качество. Основной деталью GESPI является то, что он не требует предположений о распределении данных и обеспечивает ограничение ошибки без изменения базового метода. Также GESPI интегрируется с такими методами, как conformal prediction и multiple testing, без изменения их основных алгоритмов. Это делает GESPI легко применяемым в различных статистических задачах. ## Результаты Мы проверили GESPI на нескольких сложных задачах, включая задачу по прогнозированию структур белков с помощью AlphaFold и сравнение бо LARGE REASONING моделей при решении математических задач. Мы использовали как высококачественные, так и низкокачественные синтетические данные, чтобы оценить эффективность различных статистических методов в разных условиях. Эксперименты показали, что GESPI повышает точность и эффективность выборки, оставаясь в пределах заданного пользователем ограничения на ошибки. Наши результаты показали, что GESPI работает без каких-либо предположений о распределении данных, что делает его универсальным для разных задач. ## Значимость GESPI имеет широкое применение в статистическом анализе и моделировании. Он позволяет избегать недостатков, связанных с использованием низкокачественных синтетических данных, а также повышает степень надежности результатов. Этот подход может быть применен в широком круге областей, включая биоинформатику, машинное обучение, а также в решение задач, где требуется точный статистический вывод. Наше решение также открывает возможности для будущих исследований в области статистических методов, которые могут включать расширенные техники повышения эффективности вы

Annotation:

The rapid proliferation of high-quality synthetic data -- generated by advanced AI models or collected as auxiliary data from related tasks -- presents both opportunities and challenges for statistical inference. This paper introduces a GEneral Synthetic-Powered Inference (GESPI) framework that wraps around any statistical inference procedure to safely enhance sample efficiency by combining synthetic and real data. Our framework leverages high-quality synthetic data to boost statistical power, y...

ID: 2509.20345v1 stat.ME, cs.LG, stat.ML

arXiv PDF

📄 Wrong Model, Right Uncertainty: Spatial Associations for Discrete Data with Misspecification

2025-09-05

Авторы:

David R. Burt, Renato Berlinghieri, Tamara Broderick

## Контекст Оценка связи между переменными, такими как климатические параметры и распространение заболеваний, является ключевой задачей во многих научных и практических областях. Особенно актуальной она становится в сфере общественного здравоохранения, где необходимо провести анализ связи между погодными условиями, окружающей средой и распространением заболеваний. Однако существующие методы часто страдают от непрактичных предположений, таких как непреднамеренная ошибка моделирования или непредставимость меток в пространстве. Эти ограничения приводят к недостоверным выводам и недооценке неопределенности. Целью настоящей работы является развитие более точных и реалистичных методов оценки связей в пространстве, учитывая эти сложности. ## Метод Мы предлагаем новую методологию для оценки пространственных связей между ковариатом и дискретным ответом, таким как бинарный или счетно-валентный результат. Метод основывается на сочетании нескольких технических усовершенствований. Во-первых, мы учитываем пространственно разнородную неточность, которая часто присутствует в данных. Во-вторых, мы предлагаем проверку любой модели на подходящую априорную теоретическую модель. В-третьих, мы применяем дельта-метод с центральным предельным теоремой Ляпунова для обоснования корректности наших интервалов доверия. Наша методика является универсальной и применима к различным ситуациям, в том числе непредварительной модели и произвольной структуре пространственных данных. ## Результаты Мы провели эмпирические эксперименты на демонстрационных данных, сравнив нашу новую методику с существующими. Наши результаты показали, что стандартные подходы часто дают недостоверные интервалы доверия, которые могут даже ошибочно определять сигнатуру связи. Наш метод, напротив, стабильно дает надежные интервалы, которые полностью соответствуют теоретическим ожиданиям. Мы также провели симуляционные эксперименты, показывающие, что наш метод выполняет лучше в ситуациях с пространственно сгенерированными данными и пространственно несимметричными условиями. ## Значимость Наша работа демонстрирует значительный потенциал для усовершенствования оценок в области пространственных связей, особенно при работе с дискретными данными. Это имеет важное значение для общественного здравоохранения, экологии и других научных направлений, где пространственное распределение данных имеет ключевое значение. Благодаря нашему подходу, ученые могут более надежно оценивать и интерпретировать связи, даже при пространственных и моделировате

Annotation:

Scientists are often interested in estimating an association between a covariate and a binary- or count-valued response. For instance, public health officials are interested in how much disease presence (a binary response per individual) varies as temperature or pollution (covariates) increases. Many existing methods can be used to estimate associations, and corresponding uncertainty intervals, but make unrealistic assumptions in the spatial domain. For instance, they incorrectly assume models a...

ID: 2509.01776v1 stat.ME, cs.LG, stat.ML

arXiv PDF

📄 Sensitivity Analysis to Unobserved Confounding with Copula-based Normalizing Flows

2025-08-14

Авторы:

Sourabh Balgi, Marc Braun, Jose M. Peña, Adel Daoud

## Контекст Исследование работы адресуется проблеме **сенситивности анализа к невидимому вмешательству** при казуальных выводах. Управляемая связь между причиной и результатом часто затухает из-за невидимого вмешательства, которое не учтено в модели. Это приводит к недооценке или переоценке силы причинно-следственной связи. Проблема становится особенно актуальной при работе с реальными данными, где многие факторы остаются незамеченными. Целью работы является разработка метода, позволяющего оценивать ограничивающие границы силы причинно-следственной связи в условиях невидимого вмешательства, используя моделирование на основе копул и нормализующих потоков. ## Метод Метод основывается на **копуле-основанном нормализующем потоке**, представленном в виде $\rho$-GNF ($\rho$-Gaussian Normalizing Flow). Значение параметра $\rho \in [-1, +1]$ определяет степень невидимого вмешательства, которая описывается как гауссова копула. Это позволяет вычислять **среднюю причинно-следственную эффективность (ACE)** в зависимости от $\rho$, учитывая различные уровни невидимого вмешательства. Результатом работы является **$\rho$-курвa**, показывающая диапазон ACE в зависимости от предположений о $\rho$. Метод также расширен на **байесовскую версию**, которая позволяет использовать предварительную информацию о $\rho$ для вычисления **постепенного распределения ACE** и определения **уверенности интервалов**. ## Результаты Эксперименты проводились на **симулированных и реальных данных**. Обнаружено, что $\rho$-GNF позволяет точно определять границы ACE в условиях различных уровней невидимого вмешательства. Этот подход демонстрирует высокую точность в сравнении с другими методами. Байесовская версия позволяет извлекать более подробные информационные интервалы для ACE, учитывая предварительные знания о $\rho$. Эксперименты показали, что $\rho$-GNF может обеспечивать более точные оценки причинно-следственных связей, даже при несовершенных данных. ## Значимость Разработанный подход может быть применен в политической экономии, экологии, медицине и других областях, где важно корректно оценивать причинно-следственные связи в условиях недостаточности информации. Одним из преимуществ является **гибкость** в учете различных уровней невидимого вмешательства. **Потенциальное влияние** заключается в улучшении качества выводов в ситуациях, когда невидимое вмешательство является значительной проблемой. ## Выводы Работа предлагает новый, эффективный подход к сенситивности анализа в условиях невидимого вмешательства. **Основные достижения** состоят в разработке $\rho$-GNF и его баYESовской версии. **Б

Annotation:

We propose a novel method for sensitivity analysis to unobserved confounding in causal inference. The method builds on a copula-based causal graphical normalizing flow that we term $\rho$-GNF, where $\rho \in [-1,+1]$ is the sensitivity parameter. The parameter represents the non-causal association between exposure and outcome due to unobserved confounding, which is modeled as a Gaussian copula. In other words, the $\rho$-GNF enables scholars to estimate the average causal effect (ACE) as a func...

ID: 2508.08752v1 stat.ME, cs.LG, stat.ML

arXiv PDF

Показано 1 - 10 из 11 записей