Scalable extensions to given-data Sobol' index estimators

2509.09078v2 stat.ML, cs.LG, stat.AP, stat.CO 2025-09-16
Авторы:

Teresa Portone, Bert Debusschere, Samantha Yang, Emiliano Islas-Quinones, T. Patrick Xiao

Резюме на русском

## Контекст Вычислительно экспенсивные модели и модели с большим количеством входных параметров часто присутствуют в прикладных задачах. Исследования гибридных и сложных систем часто требуют оценки вклада каждого входа в выходную величину, чтобы понять систему и оптимизировать ее. Одним из стандартных подходов к такой оценке является анализ вариации (Sobol' analysis). Однако существующие методы обычно ограничены моделями с небольшим числом входов из-за больших потребностей в памяти или неэффективности в вычислениях. Необходимо развитие методов, которые бы позволяли работать с моделями с тысячами входов, не теряя точности и эффективности. ## Метод Расширения предложенного метода основываются на новых подходах к вычислению индексов Sobol'. Модели с большим количеством параметров требуют новых алгоритмов, которые не требуют хранения всех данных в памяти. Мы предлагаем алгоритм, обрабатывающий данные в потоке (streaming), что позволяет обрабатывать данные в батчах. Также мы предлагаем новую оптимизацию, которая сильно уменьшает необходимость в памяти, без потери точности. Для моделей с повторяющимися входами, мы предлагаем нестандартную партицию, которая адаптируется к таким случаям. Наш подход легко интегрируется с любыми моделями, включая сложные нейронные сети. ## Результаты Мы проводили эксперименты на двух примерах моделей с множеством входов, в том числе современных нейронных сетей. Мы сравнили наш подход с классическими методами и показали, что наши расширения не только эффективнее по памяти, но и дают точные результаты, примерно на одном уровне с традиционными. Наши вычислительные эксперименты демонстрируют, что модели с тысячами параметрами могут быть анализированы с большой точностью и без значительных изменений в архитектуре. В результате, мы увеличили эффективность и точность метода Sobol' для моделей с высокой сложностью. ## Значимость Наши расширения могут быть применены в различных областях, где требуется анализ вариации, например, в технике, экологии, финансах и биологии. Этот подход позволяет работать с моделями, которые ранее были слишком сложными для такого анализа. Мы также показали, что наш метод эффективен в случаях с нестандартными распределениями входных параметров. Это открывает новые возможности для исследований и применения анализа вариации в широких областях прикладных задач. ## Выводы Мы представили расширения метода Sobol' для вычислительно экспенсивных моделей. Мы предложили новые алгоритмы и методы хранения данных, которые позволяют обрабатывать модели с тысячами входов. Наши результаты демонстриру

Abstract

Given-data methods for variance-based sensitivity analysis have significantly advanced the feasibility of Sobol' index computation for computationally expensive models and models with many inputs. However, the limitations of existing methods still preclude their application to models with an extremely large number of inputs. In this work, we present practical extensions to the existing given-data Sobol' index method, which allow variance-based sensitivity analysis to be efficiently performed on large models such as neural networks, which have $>10^4$ parameterizable inputs. For models of this size, holding all input-output evaluations simultaneously in memory -- as required by existing methods -- can quickly become impractical. These extensions also support nonstandard input distributions with many repeated values, which are not amenable to equiprobable partitions employed by existing given-data methods. Our extensions include a general definition of the given-data Sobol' index estimator with arbitrary partition, a streaming algorithm to process input-output samples in batches, and a heuristic to filter out small indices that are indistinguishable from zero indices due to statistical noise. We show that the equiprobable partition employed in existing given-data methods can introduce significant bias into Sobol' index estimates even at large sample sizes and provide numerical analyses that demonstrate why this can occur. We also show that our streaming algorithm can achieve comparable accuracy and runtimes with lower memory requirements, relative to current methods which process all samples at once. We demonstrate our novel developments on two application problems in neural network modeling.

Ссылки и действия

Связанные статьи

Scalable extensions to given-data Sobol' index estimators

#### Контекст Область варианс-базированной сенситивности (Sobol' index) играет ключевую роль в анализе влияния входных п...

2025-09-13