Scalable extensions to given-data Sobol' index estimators

2509.09078v1 stat.ML, cs.LG, stat.AP, stat.CO 2025-09-13
Авторы:

Teresa Portone, Bert Debusschere, Samantha Yang, Emiliano Islas-Quinones, T. Patrick Xiao

Резюме на русском

#### Контекст Область варианс-базированной сенситивности (Sobol' index) играет ключевую роль в анализе влияния входных параметров на выходные показатели сложных моделей. Данные методы особенно важны для моделей, требующих высоких вычислительных затрат, таких как модели нейронных сетей, в которых число входных параметров может превышать $10^4$. Однако существующие методы стыкуются с ограничениями при работе с моделями этого класса. Особенно это касается методов, использующих "предварительно заданные" данные (given-data methods), которые требуют хранения всех входно-выходных данных в памяти, что быстро становится неоправданно ресурсоёмким. Наша мотивация заключается в развитии расширенных методов, позволяющих эффективно использовать имеющиеся данные для высокоточного анализа влияния входных параметров в случаях с очень большим числом параметров. #### Метод Мы разработали расширения существующих данных-данных методов, которые устраняют ключевые ограничения. В частности, мы предложили **обобщённое определение выборочного Sobol'-индекса** с произвольной разбивкой входных параметров. Также разработана **стриминговая алгоритмика**, позволяющая обрабатывать входно-выходные данные в батчах, что эффективно ограничивает требования к памяти. Для снижения шума в результатах мы внедрили **метод фильтрации незначительных индексов**, который отсеивает значения, не отличимые от нуля статистической точностью. Эти разработки позволяют применять данные методы к моделям с миллионами входных параметров, предоставляя точные и надежные результаты. #### Результаты Мы провели эксперименты на двух примерах моделей нейронных сетей, имеющих более $10^4$ параметров. Мы сравнили наши расширенные методы с существующими подходами, включая стандартную реализацию подхода Sobol' с эквипобабной разбивкой. Наши результаты показали, что расширенные методы не только эффективнее в терминах вычислительных затрат, но и обеспечивают более точные результаты, особенно при больших размерах выборки. Мы также проанализировали причины, по которым стандартная разбивка может привести к биазу в вычислениях, и демонстрировали, что наше решение эффективно отвечает этому вызову. #### Значимость Предложенные расширения позволяют расширить возможности данных методов до моделей, используемых в машинном обучении, системах многомерного управления, и даже некоторых приложениях в физике и биологии. Они эффективны в области моделей с большим числом входных параметров, где предыдущие методы были неэффективны. Это открывает новые горизонты для варианс-базированного анализа в та

Abstract

Given-data methods for variance-based sensitivity analysis have significantly advanced the feasibility of Sobol' index computation for computationally expensive models and models with many inputs. However, the limitations of existing methods still preclude their application to models with an extremely large number of inputs. In this work, we present practical extensions to the existing given-data Sobol' index method, which allow variance-based sensitivity analysis to be efficiently performed on large models such as neural networks, which have $>10^4$ parameterizable inputs. For models of this size, holding all input-output evaluations simultaneously in memory -- as required by existing methods -- can quickly become impractical. These extensions also support nonstandard input distributions with many repeated values, which are not amenable to equiprobable partitions employed by existing given-data methods. Our extensions include a general definition of the given-data Sobol' index estimator with arbitrary partition, a streaming algorithm to process input-output samples in batches, and a heuristic to filter out small indices that are indistinguishable from zero indices due to statistical noise. We show that the equiprobable partition employed in existing given-data methods can introduce significant bias into Sobol' index estimates even at large sample sizes and provide numerical analyses that demonstrate why this can occur. We also show that our streaming algorithm can achieve comparable accuracy and runtimes with lower memory requirements, relative to current methods which process all samples at once. We demonstrate our novel developments on two application problems in neural network modeling.

Ссылки и действия

Связанные статьи

Scalable extensions to given-data Sobol' index estimators

## Контекст Вычислительно экспенсивные модели и модели с большим количеством входных параметров часто присутствуют в при...

2025-09-16