Scalable extensions to given-data Sobol' index estimators
2509.09078v2
stat.ML, cs.LG, stat.AP, stat.CO
2025-09-16
Авторы:
Teresa Portone, Bert Debusschere, Samantha Yang, Emiliano Islas-Quinones, T. Patrick Xiao
Резюме на русском
## Контекст
Вычислительно экспенсивные модели и модели с большим количеством входных параметров часто присутствуют в прикладных задачах. Исследования гибридных и сложных систем часто требуют оценки вклада каждого входа в выходную величину, чтобы понять систему и оптимизировать ее. Одним из стандартных подходов к такой оценке является анализ вариации (Sobol' analysis). Однако существующие методы обычно ограничены моделями с небольшим числом входов из-за больших потребностей в памяти или неэффективности в вычислениях. Необходимо развитие методов, которые бы позволяли работать с моделями с тысячами входов, не теряя точности и эффективности.
## Метод
Расширения предложенного метода основываются на новых подходах к вычислению индексов Sobol'. Модели с большим количеством параметров требуют новых алгоритмов, которые не требуют хранения всех данных в памяти. Мы предлагаем алгоритм, обрабатывающий данные в потоке (streaming), что позволяет обрабатывать данные в батчах. Также мы предлагаем новую оптимизацию, которая сильно уменьшает необходимость в памяти, без потери точности. Для моделей с повторяющимися входами, мы предлагаем нестандартную партицию, которая адаптируется к таким случаям. Наш подход легко интегрируется с любыми моделями, включая сложные нейронные сети.
## Результаты
Мы проводили эксперименты на двух примерах моделей с множеством входов, в том числе современных нейронных сетей. Мы сравнили наш подход с классическими методами и показали, что наши расширения не только эффективнее по памяти, но и дают точные результаты, примерно на одном уровне с традиционными. Наши вычислительные эксперименты демонстрируют, что модели с тысячами параметрами могут быть анализированы с большой точностью и без значительных изменений в архитектуре. В результате, мы увеличили эффективность и точность метода Sobol' для моделей с высокой сложностью.
## Значимость
Наши расширения могут быть применены в различных областях, где требуется анализ вариации, например, в технике, экологии, финансах и биологии. Этот подход позволяет работать с моделями, которые ранее были слишком сложными для такого анализа. Мы также показали, что наш метод эффективен в случаях с нестандартными распределениями входных параметров. Это открывает новые возможности для исследований и применения анализа вариации в широких областях прикладных задач.
## Выводы
Мы представили расширения метода Sobol' для вычислительно экспенсивных моделей. Мы предложили новые алгоритмы и методы хранения данных, которые позволяют обрабатывать модели с тысячами входов. Наши результаты демонстриру
Abstract
Given-data methods for variance-based sensitivity analysis have significantly
advanced the feasibility of Sobol' index computation for computationally
expensive models and models with many inputs. However, the limitations of
existing methods still preclude their application to models with an extremely
large number of inputs. In this work, we present practical extensions to the
existing given-data Sobol' index method, which allow variance-based sensitivity
analysis to be efficiently performed on large models such as neural networks,
which have $>10^4$ parameterizable inputs. For models of this size, holding all
input-output evaluations simultaneously in memory -- as required by existing
methods -- can quickly become impractical. These extensions also support
nonstandard input distributions with many repeated values, which are not
amenable to equiprobable partitions employed by existing given-data methods.
Our extensions include a general definition of the given-data Sobol' index
estimator with arbitrary partition, a streaming algorithm to process
input-output samples in batches, and a heuristic to filter out small indices
that are indistinguishable from zero indices due to statistical noise. We show
that the equiprobable partition employed in existing given-data methods can
introduce significant bias into Sobol' index estimates even at large sample
sizes and provide numerical analyses that demonstrate why this can occur. We
also show that our streaming algorithm can achieve comparable accuracy and
runtimes with lower memory requirements, relative to current methods which
process all samples at once. We demonstrate our novel developments on two
application problems in neural network modeling.