Uncertainty Quantification for Surface Ozone Emulators using Deep Learning

2508.04885v1 cs.LG, cs.AI 2025-08-09
Авторы:

Kelsey Doerksen, Yuliya Marchetti, Steven Lu, Kevin Bowman, James Montgomery, Kazuyuki Miyazaki, Yarin Gal, Freddie Kalaitzis

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Загрязнение воздуха представляет собой глобальную угрозу здоровью человека: по состоянию на 2023 год, 94 % населения планеты подвержены воздействию загрязняющих веществ, превышающих безопасные уровни. Среди ключевых загрязнителей особое место занимает приземный озон (O₃) — вторичный поллютант, образующийся в результате фотохимических реакций между оксидами азота (NOx) и летучими органическими соединениями (VOC) при участии солнечного света. Точное моделирование концентраций приземного озона и драйверов его пространственно-временной изменчивости остаётся вызовом для современной науки. Традиционные физически обоснованные модели, такие как MOMO-Chem (Multi-mOdel Multi-cOnstituent Chemical data assimilation), страдают от систематических ошибок (смещений) при переходе от глобальных к региональным и локальным масштабам, критически важным для оценки воздействия на здоровье человека. Эти смещения могут достигать 20-40 % по абсолютным значениям озона, что делает результаты моделирования недостаточно надёжными для принятия решений в области государственной политики и общественного здравоохранения. Глубокое обучение (Deep Learning) демонстрирует значительный потенциал в захвате сложных нелинейных зависимостей в климатических данных, включая пространственно-временную структуру полей загрязнителей. Однако существующие эмуляторы на основе нейронных сетей страдают от двух ключевых недостатков: (1) отсутствие количественной оценки неопределённости предсказаний, и (2) ограниченная интерпретируемость «чёрных ящиков», что делает их непригодными для критически важных приложений в области здравоохранения и экологической политики. Авторы статьи поднимают фундаментальный вопрос: как создать достаточно точный и при этом надёжный эмулятор ошибок приземного озона, способный не только предсказывать систематические смещения физической модели, но и количественно оценивать доверительные интервалы этих предсказаний. Решение этой проблемы позволит выявить географические области, где физическая модель наиболее/наименее надёжна, и определить оптимальные местоположения наземных станций мониторинга для коррекции смещений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения поставленной задачи авторы разработали неопределённостно-ориентированную архитектуру на основе модифицированной U-Net сети, специально адаптированной для предсказания пространственных остатков (ошибок) модели MOMO-Chem в приземном слое атмосферы. Архитектура включает энкодер-декодер структуру с пропускными соединениями (skip connections), что позволяет сохранить как глобальную, так и локальную пространственную информацию о распределении загрязнителей. Для количественной оценки неопределённости были реализованы два взаимодополняющих подхода: 1. **Байесовский U-Net**: реализован через применение метода Monte Carlo Dropout (MC-Dropout) при инференсе. Во время предсказания сеть запускается многократно (T=50 итераций) с включённым dropout-слоем (p=0.1-0.3), генерируя ансамбль предсказаний. Статистика по ансамблю (среднее и стандартное отклонение) используется для получения предсказательного распределения. Этот метод обеспечивает апостериорную оценку неопределённости параметров модели. 2. **Квантильная регрессия**: модель обучается одновременно предсказывать три квантильные функции (0.1, 0.5, 0.9) для получения 80 %-ного доверительного интервала. Используется модифицированная функция потерь pinball loss, которая поощряет предсказание верхней и нижней границ неопределённости. Этот подход позволяет учитывать гетероскедастичность ошибок (зависимость дисперсии от входных переменных). Ключевыми входными признаками стали: - Пространственные поля остатков MOMO-Chem (разрешение 0.5°×0.5°) - Метеорологические переменные (температура, влажность, скорость ветра) - Информация о землепользовании (Land Use/Land Cover - LULC) из MODIS - Топографические характеристики (высота рельефа, расстояние до побережья) Модель обучалась на данных за 2018 год и валидировалась на июне 2019 для регионов Северной Америки и Европы. Использовалась стратегия пространственной кросс-валидации для предотвращения утеч

Abstract

Air pollution is a global hazard, and as of 2023, 94\% of the world's population is exposed to unsafe pollution levels. Surface Ozone (O3), an important pollutant, and the drivers of its trends are difficult to model, and traditional physics-based models fall short in their practical use for scales relevant to human-health impacts. Deep Learning-based emulators have shown promise in capturing complex climate patterns, but overall lack the interpretability necessary to support critical decision making for policy changes and public health measures. We implement an uncertainty-aware U-Net architecture to predict the Multi-mOdel Multi-cOnstituent Chemical data assimilation (MOMO-Chem) model's surface ozone residuals (bias) using Bayesian and quantile regression methods. We demonstrate the capability of our techniques in regional estimation of bias in North America and Europe for June 2019. We highlight the uncertainty quantification (UQ) scores between our two UQ methodologies and discern which ground stations are optimal and sub-optimal candidates for MOMO-Chem bias correction, and evaluate the impact of land-use information in surface ozone residual modeling.

Ссылки и действия