📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Teresa Portone, Bert Debusschere, Samantha Yang, Emiliano Islas-Quinones, T. Patrick Xiao

## Контекст Вычислительно экспенсивные модели и модели с большим количеством входных параметров часто присутствуют в прикладных задачах. Исследования гибридных и сложных систем часто требуют оценки вклада каждого входа в выходную величину, чтобы понять систему и оптимизировать ее. Одним из стандартных подходов к такой оценке является анализ вариации (Sobol' analysis). Однако существующие методы обычно ограничены моделями с небольшим числом входов из-за больших потребностей в памяти или неэффективности в вычислениях. Необходимо развитие методов, которые бы позволяли работать с моделями с тысячами входов, не теряя точности и эффективности. ## Метод Расширения предложенного метода основываются на новых подходах к вычислению индексов Sobol'. Модели с большим количеством параметров требуют новых алгоритмов, которые не требуют хранения всех данных в памяти. Мы предлагаем алгоритм, обрабатывающий данные в потоке (streaming), что позволяет обрабатывать данные в батчах. Также мы предлагаем новую оптимизацию, которая сильно уменьшает необходимость в памяти, без потери точности. Для моделей с повторяющимися входами, мы предлагаем нестандартную партицию, которая адаптируется к таким случаям. Наш подход легко интегрируется с любыми моделями, включая сложные нейронные сети. ## Результаты Мы проводили эксперименты на двух примерах моделей с множеством входов, в том числе современных нейронных сетей. Мы сравнили наш подход с классическими методами и показали, что наши расширения не только эффективнее по памяти, но и дают точные результаты, примерно на одном уровне с традиционными. Наши вычислительные эксперименты демонстрируют, что модели с тысячами параметрами могут быть анализированы с большой точностью и без значительных изменений в архитектуре. В результате, мы увеличили эффективность и точность метода Sobol' для моделей с высокой сложностью. ## Значимость Наши расширения могут быть применены в различных областях, где требуется анализ вариации, например, в технике, экологии, финансах и биологии. Этот подход позволяет работать с моделями, которые ранее были слишком сложными для такого анализа. Мы также показали, что наш метод эффективен в случаях с нестандартными распределениями входных параметров. Это открывает новые возможности для исследований и применения анализа вариации в широких областях прикладных задач. ## Выводы Мы представили расширения метода Sobol' для вычислительно экспенсивных моделей. Мы предложили новые алгоритмы и методы хранения данных, которые позволяют обрабатывать модели с тысячами входов. Наши результаты демонстриру
Annotation:
Given-data methods for variance-based sensitivity analysis have significantly advanced the feasibility of Sobol' index computation for computationally expensive models and models with many inputs. However, the limitations of existing methods still preclude their application to models with an extremely large number of inputs. In this work, we present practical extensions to the existing given-data Sobol' index method, which allow variance-based sensitivity analysis to be efficiently performed on ...
ID: 2509.09078v2 stat.ML, cs.LG, stat.AP, stat.CO
Авторы:

Teresa Portone, Bert Debusschere, Samantha Yang, Emiliano Islas-Quinones, T. Patrick Xiao

#### Контекст Область варианс-базированной сенситивности (Sobol' index) играет ключевую роль в анализе влияния входных параметров на выходные показатели сложных моделей. Данные методы особенно важны для моделей, требующих высоких вычислительных затрат, таких как модели нейронных сетей, в которых число входных параметров может превышать $10^4$. Однако существующие методы стыкуются с ограничениями при работе с моделями этого класса. Особенно это касается методов, использующих "предварительно заданные" данные (given-data methods), которые требуют хранения всех входно-выходных данных в памяти, что быстро становится неоправданно ресурсоёмким. Наша мотивация заключается в развитии расширенных методов, позволяющих эффективно использовать имеющиеся данные для высокоточного анализа влияния входных параметров в случаях с очень большим числом параметров. #### Метод Мы разработали расширения существующих данных-данных методов, которые устраняют ключевые ограничения. В частности, мы предложили **обобщённое определение выборочного Sobol'-индекса** с произвольной разбивкой входных параметров. Также разработана **стриминговая алгоритмика**, позволяющая обрабатывать входно-выходные данные в батчах, что эффективно ограничивает требования к памяти. Для снижения шума в результатах мы внедрили **метод фильтрации незначительных индексов**, который отсеивает значения, не отличимые от нуля статистической точностью. Эти разработки позволяют применять данные методы к моделям с миллионами входных параметров, предоставляя точные и надежные результаты. #### Результаты Мы провели эксперименты на двух примерах моделей нейронных сетей, имеющих более $10^4$ параметров. Мы сравнили наши расширенные методы с существующими подходами, включая стандартную реализацию подхода Sobol' с эквипобабной разбивкой. Наши результаты показали, что расширенные методы не только эффективнее в терминах вычислительных затрат, но и обеспечивают более точные результаты, особенно при больших размерах выборки. Мы также проанализировали причины, по которым стандартная разбивка может привести к биазу в вычислениях, и демонстрировали, что наше решение эффективно отвечает этому вызову. #### Значимость Предложенные расширения позволяют расширить возможности данных методов до моделей, используемых в машинном обучении, системах многомерного управления, и даже некоторых приложениях в физике и биологии. Они эффективны в области моделей с большим числом входных параметров, где предыдущие методы были неэффективны. Это открывает новые горизонты для варианс-базированного анализа в та
Annotation:
Given-data methods for variance-based sensitivity analysis have significantly advanced the feasibility of Sobol' index computation for computationally expensive models and models with many inputs. However, the limitations of existing methods still preclude their application to models with an extremely large number of inputs. In this work, we present practical extensions to the existing given-data Sobol' index method, which allow variance-based sensitivity analysis to be efficiently performed on ...
ID: 2509.09078v1 stat.ML, cs.LG, stat.AP, stat.CO