Wrong Model, Right Uncertainty: Spatial Associations for Discrete Data with Misspecification

2509.01776v1 stat.ME, cs.LG, stat.ML 2025-09-05
Авторы:

David R. Burt, Renato Berlinghieri, Tamara Broderick

Резюме на русском

## Контекст Оценка связи между переменными, такими как климатические параметры и распространение заболеваний, является ключевой задачей во многих научных и практических областях. Особенно актуальной она становится в сфере общественного здравоохранения, где необходимо провести анализ связи между погодными условиями, окружающей средой и распространением заболеваний. Однако существующие методы часто страдают от непрактичных предположений, таких как непреднамеренная ошибка моделирования или непредставимость меток в пространстве. Эти ограничения приводят к недостоверным выводам и недооценке неопределенности. Целью настоящей работы является развитие более точных и реалистичных методов оценки связей в пространстве, учитывая эти сложности. ## Метод Мы предлагаем новую методологию для оценки пространственных связей между ковариатом и дискретным ответом, таким как бинарный или счетно-валентный результат. Метод основывается на сочетании нескольких технических усовершенствований. Во-первых, мы учитываем пространственно разнородную неточность, которая часто присутствует в данных. Во-вторых, мы предлагаем проверку любой модели на подходящую априорную теоретическую модель. В-третьих, мы применяем дельта-метод с центральным предельным теоремой Ляпунова для обоснования корректности наших интервалов доверия. Наша методика является универсальной и применима к различным ситуациям, в том числе непредварительной модели и произвольной структуре пространственных данных. ## Результаты Мы провели эмпирические эксперименты на демонстрационных данных, сравнив нашу новую методику с существующими. Наши результаты показали, что стандартные подходы часто дают недостоверные интервалы доверия, которые могут даже ошибочно определять сигнатуру связи. Наш метод, напротив, стабильно дает надежные интервалы, которые полностью соответствуют теоретическим ожиданиям. Мы также провели симуляционные эксперименты, показывающие, что наш метод выполняет лучше в ситуациях с пространственно сгенерированными данными и пространственно несимметричными условиями. ## Значимость Наша работа демонстрирует значительный потенциал для усовершенствования оценок в области пространственных связей, особенно при работе с дискретными данными. Это имеет важное значение для общественного здравоохранения, экологии и других научных направлений, где пространственное распределение данных имеет ключевое значение. Благодаря нашему подходу, ученые могут более надежно оценивать и интерпретировать связи, даже при пространственных и моделировате

Abstract

Scientists are often interested in estimating an association between a covariate and a binary- or count-valued response. For instance, public health officials are interested in how much disease presence (a binary response per individual) varies as temperature or pollution (covariates) increases. Many existing methods can be used to estimate associations, and corresponding uncertainty intervals, but make unrealistic assumptions in the spatial domain. For instance, they incorrectly assume models are well-specified. Or they assume the training and target locations are i.i.d. -- whereas in practice, these locations are often not even randomly sampled. Some recent work avoids these assumptions but works only for continuous responses with spatially constant noise. In the present work, we provide the first confidence intervals with guaranteed asymptotic nominal coverage for spatial associations given discrete responses, even under simultaneous model misspecification and nonrandom sampling of spatial locations. To do so, we demonstrate how to handle spatially varying noise, provide a novel proof of consistency for our proposed estimator, and use a delta method argument with a Lyapunov central limit theorem. We show empirically that standard approaches can produce unreliable confidence intervals and can even get the sign of an association wrong, while our method reliably provides correct coverage.

Ссылки и действия