Scalable extensions to given-data Sobol' index estimators
2509.09078v1
stat.ML, cs.LG, stat.AP, stat.CO
2025-09-13
Авторы:
Teresa Portone, Bert Debusschere, Samantha Yang, Emiliano Islas-Quinones, T. Patrick Xiao
Резюме на русском
#### Контекст
Область варианс-базированной сенситивности (Sobol' index) играет ключевую роль в анализе влияния входных параметров на выходные показатели сложных моделей. Данные методы особенно важны для моделей, требующих высоких вычислительных затрат, таких как модели нейронных сетей, в которых число входных параметров может превышать $10^4$. Однако существующие методы стыкуются с ограничениями при работе с моделями этого класса. Особенно это касается методов, использующих "предварительно заданные" данные (given-data methods), которые требуют хранения всех входно-выходных данных в памяти, что быстро становится неоправданно ресурсоёмким. Наша мотивация заключается в развитии расширенных методов, позволяющих эффективно использовать имеющиеся данные для высокоточного анализа влияния входных параметров в случаях с очень большим числом параметров.
#### Метод
Мы разработали расширения существующих данных-данных методов, которые устраняют ключевые ограничения. В частности, мы предложили **обобщённое определение выборочного Sobol'-индекса** с произвольной разбивкой входных параметров. Также разработана **стриминговая алгоритмика**, позволяющая обрабатывать входно-выходные данные в батчах, что эффективно ограничивает требования к памяти. Для снижения шума в результатах мы внедрили **метод фильтрации незначительных индексов**, который отсеивает значения, не отличимые от нуля статистической точностью. Эти разработки позволяют применять данные методы к моделям с миллионами входных параметров, предоставляя точные и надежные результаты.
#### Результаты
Мы провели эксперименты на двух примерах моделей нейронных сетей, имеющих более $10^4$ параметров. Мы сравнили наши расширенные методы с существующими подходами, включая стандартную реализацию подхода Sobol' с эквипобабной разбивкой. Наши результаты показали, что расширенные методы не только эффективнее в терминах вычислительных затрат, но и обеспечивают более точные результаты, особенно при больших размерах выборки. Мы также проанализировали причины, по которым стандартная разбивка может привести к биазу в вычислениях, и демонстрировали, что наше решение эффективно отвечает этому вызову.
#### Значимость
Предложенные расширения позволяют расширить возможности данных методов до моделей, используемых в машинном обучении, системах многомерного управления, и даже некоторых приложениях в физике и биологии. Они эффективны в области моделей с большим числом входных параметров, где предыдущие методы были неэффективны. Это открывает новые горизонты для варианс-базированного анализа в та
Abstract
Given-data methods for variance-based sensitivity analysis have significantly
advanced the feasibility of Sobol' index computation for computationally
expensive models and models with many inputs. However, the limitations of
existing methods still preclude their application to models with an extremely
large number of inputs. In this work, we present practical extensions to the
existing given-data Sobol' index method, which allow variance-based sensitivity
analysis to be efficiently performed on large models such as neural networks,
which have $>10^4$ parameterizable inputs. For models of this size, holding all
input-output evaluations simultaneously in memory -- as required by existing
methods -- can quickly become impractical. These extensions also support
nonstandard input distributions with many repeated values, which are not
amenable to equiprobable partitions employed by existing given-data methods.
Our extensions include a general definition of the given-data Sobol' index
estimator with arbitrary partition, a streaming algorithm to process
input-output samples in batches, and a heuristic to filter out small indices
that are indistinguishable from zero indices due to statistical noise. We show
that the equiprobable partition employed in existing given-data methods can
introduce significant bias into Sobol' index estimates even at large sample
sizes and provide numerical analyses that demonstrate why this can occur. We
also show that our streaming algorithm can achieve comparable accuracy and
runtimes with lower memory requirements, relative to current methods which
process all samples at once. We demonstrate our novel developments on two
application problems in neural network modeling.