Approximating the universal thermal climate index using sparse regression with orthogonal polynomials
2508.11307v1
physics.ao-ph, cs.LG, physics.data-an
2025-08-19
Авторы:
Sabin Roman, Gregor Skok, Ljupco Todorovski, Saso Dzeroski
Резюме на русском
## Контекст
Регулирование температурного удобства человека в различных условиях климата является ключевым аспектом улучшения здоровья и качества жизни в мегаполисах. Одним из важных инструментов для оценки температурного удобства является Universal Thermal Climate Index (UTCI), который интегрирует несколько атмосферных переменных, таких как температура, влажность, ветер и солнечное излучение. Однако UTCI характеризуется сложной нелинейной структурой, что создает трудности для его эффективного моделирования и анализа. Исследователи сталкиваются с проблемами связанными с необходимостью понимания индивидуальных вкладов каждой переменной в общий индекс, а также с необходимостью использовать простые и наглядные аппараты моделирования. Наша мотивация заключается в создании модели, которая бы осуществляла точную интерпретируемую аппроксимацию UTCI, основываясь на минимальном объеме данных и требуя минимальных вычислительных ресурсов.
## Метод
Мы применяем подходы символьного и спарсе регрессии, основанные на ортогональных полиномах, для аппроксимации UTCI. Особое внимание уделяется использованию ортогональных полиномов Легендра, которые обеспечивают более стабильную и эффективную построение моделей. Модели задаются в виде разложения в спарсе полиномиальные базисы, что дает возможность эффективно воспроизводить инварианты UTCI в различных условиях окружающей среды. Мы используем символьные регрессии для выявления взаимосвязей между переменными исходных данных и UTCI. Для повышения точности и уменьшения модельной сложности, мы применяем методы спарсинга, которые позволяют удалять ненужные компоненты из модели.
## Результаты
Мы провели эксперименты на данных, собранных в различных географических регионах. Наши модели показали значительно нижую ошибку в прогнозировании UTCI по сравнению с широко применяемыми полиномиальными моделями. Например, наша модель подходит к теоретическому оптимуму в L2-метрике (по квадрату отклонений), в то время как полиномиальная модель шестой степени, использующая одинаковое количество параметров, дает существенно более высокую ошибку. Мы также проверили устойчивость моделей к отложенной выборке и показали, что они успешно работают даже при использовании лишь 20% данных для тренировки. Мы также отметили, что наши модели эффективно интерпретируются, поскольку каждый слагаемый в разложении имеет явную физическую интерпретацию.
## Значимость
Предложенные модели имеют широкие перспективы в приложениях, связанных с моделированием климата и окружающей среды. Они могут применяться для моделирования температ
Abstract
This article explores novel data-driven modeling approaches for analyzing and
approximating the Universal Thermal Climate Index (UTCI), a
physiologically-based metric integrating multiple atmospheric variables to
assess thermal comfort. Given the nonlinear, multivariate structure of UTCI, we
investigate symbolic and sparse regression techniques as tools for
interpretable and efficient function approximation. In particular, we highlight
the benefits of using orthogonal polynomial bases-such as Legendre
polynomials-in sparse regression frameworks, demonstrating their advantages in
stability, convergence, and hierarchical interpretability compared to standard
polynomial expansions. We demonstrate that our models achieve significantly
lower root-mean squared losses than the widely used sixth-degree polynomial
benchmark-while using the same or fewer parameters. By leveraging Legendre
polynomial bases, we construct models that efficiently populate a Pareto front
of accuracy versus complexity and exhibit stable, hierarchical coefficient
structures across varying model capacities. Training on just 20% of the data,
our models generalize robustly to the remaining 80%, with consistent
performance under bootstrapping. The decomposition effectively approximates the
UTCI as a Fourier-like expansion in an orthogonal basis, yielding results near
the theoretical optimum in the L2 (least squares) sense. We also connect these
findings to the broader context of equation discovery in environmental
modeling, referencing probabilistic grammar-based methods that enforce domain
consistency and compactness in symbolic expressions. Taken together, these
results illustrate how combining sparsity, orthogonality, and symbolic
structure enables robust, interpretable modeling of complex environmental
indices like UTCI - and significantly outperforms the state-of-the-art
approximation in both accuracy and efficiency.