📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 High-Dimensional Statistical Process Control via Manifold Fitting and Learning

2025-09-26

Авторы:

Burak I. Tas, Enrique del Castillo

## Контекст В Statistical Process Control (SPC) существуют сложности при мониторинге высокомерных динамических процессов, которые неявно лежат на низкомерной многообразии. Традиционные методы SPC, ориентированные на линейную редукцию размерности, часто не эффективны в высокомерных случаях. Это связано с тем, что низкое размерностное упрощение может привести к потере информации. Необходимо развитие моделей, которые эффективно работали бы с высокомерными данными, учитывая их низкомерную природу. ## Метод Для решения этой проблемы предлагается два подхода: 1. **Мониторинг на основе многообразия (manifold fitting)**: Данные аппроксимируются нелинейной структурой в высокомерном пространстве, а затем отслеживается отклонение от этого максимума. Это достигается с помощью нового скалярного, распределения-свободного, контрольного листа. 2. **Мониторинг на основе низкого размерного пространства (manifold learning)**: Данные эмбеддируются в низкомерное пространство, после чего отслеживаются отклонения в этом пространстве. Это подход близок к традиционным SPC-методам. Каждый метод доказывает свою возможность контролируемых тип-I ошибок, а затем сравнивается по природе и эффективности мониторинга. ## Результаты Эксперименты проводились на синтетических и реальных данных, включая процесс Tennessee Eastman. Метод мониторинга на основе многообразия показал высокую эффективность в мониторинге и детектировании аномалий, даже лучше tradition-based manifold learning. Для реальных данных, например, изображений электрических комутаторов, показано, что этот подход способен успешно обнаруживать поверхностные дефекты. ## Значимость Найденные результаты имеют широкое применение в промышленности, особенно в SPC, где необходимо анализ высокомерных динамических данных. Многообразие-фиттинг значительно улучшает мониторинг, повышая скорость и точность, и доказывает эффективность в реальных условиях. ## Выводы Предложенные методы мониторинга SPC, основанные на многообразии, демонстрируют высокую эффективность в динамических высокомерных процессах. Модель мониторинга на основе многообразия-фиттинга показывает более высокую точность и скорость в детектировании аномалий по сравнению с традиционными подходами. Будущие исследования будут фокусироваться на расширении этого подхода для более сложных промышленных процессов и на более глубоком исследовании интеграции многообразия-фиттинга в SPC.

Annotation:

We address the Statistical Process Control (SPC) of high-dimensional, dynamic industrial processes from two complementary perspectives: manifold fitting and manifold learning, both of which assume data lies on an underlying nonlinear, lower dimensional space. We propose two distinct monitoring frameworks for online or 'phase II' Statistical Process Control (SPC). The first method leverages state-of-the-art techniques in manifold fitting to accurately approximate the manifold where the data resid...

ID: 2509.19820v1 stat.ML, cs.LG, stat.AP

arXiv PDF

📄 Scalable extensions to given-data Sobol' index estimators

2025-09-16

Авторы:

Teresa Portone, Bert Debusschere, Samantha Yang, Emiliano Islas-Quinones, T. Patrick Xiao

## Контекст Вычислительно экспенсивные модели и модели с большим количеством входных параметров часто присутствуют в прикладных задачах. Исследования гибридных и сложных систем часто требуют оценки вклада каждого входа в выходную величину, чтобы понять систему и оптимизировать ее. Одним из стандартных подходов к такой оценке является анализ вариации (Sobol' analysis). Однако существующие методы обычно ограничены моделями с небольшим числом входов из-за больших потребностей в памяти или неэффективности в вычислениях. Необходимо развитие методов, которые бы позволяли работать с моделями с тысячами входов, не теряя точности и эффективности. ## Метод Расширения предложенного метода основываются на новых подходах к вычислению индексов Sobol'. Модели с большим количеством параметров требуют новых алгоритмов, которые не требуют хранения всех данных в памяти. Мы предлагаем алгоритм, обрабатывающий данные в потоке (streaming), что позволяет обрабатывать данные в батчах. Также мы предлагаем новую оптимизацию, которая сильно уменьшает необходимость в памяти, без потери точности. Для моделей с повторяющимися входами, мы предлагаем нестандартную партицию, которая адаптируется к таким случаям. Наш подход легко интегрируется с любыми моделями, включая сложные нейронные сети. ## Результаты Мы проводили эксперименты на двух примерах моделей с множеством входов, в том числе современных нейронных сетей. Мы сравнили наш подход с классическими методами и показали, что наши расширения не только эффективнее по памяти, но и дают точные результаты, примерно на одном уровне с традиционными. Наши вычислительные эксперименты демонстрируют, что модели с тысячами параметрами могут быть анализированы с большой точностью и без значительных изменений в архитектуре. В результате, мы увеличили эффективность и точность метода Sobol' для моделей с высокой сложностью. ## Значимость Наши расширения могут быть применены в различных областях, где требуется анализ вариации, например, в технике, экологии, финансах и биологии. Этот подход позволяет работать с моделями, которые ранее были слишком сложными для такого анализа. Мы также показали, что наш метод эффективен в случаях с нестандартными распределениями входных параметров. Это открывает новые возможности для исследований и применения анализа вариации в широких областях прикладных задач. ## Выводы Мы представили расширения метода Sobol' для вычислительно экспенсивных моделей. Мы предложили новые алгоритмы и методы хранения данных, которые позволяют обрабатывать модели с тысячами входов. Наши результаты демонстриру

Annotation:

Given-data methods for variance-based sensitivity analysis have significantly advanced the feasibility of Sobol' index computation for computationally expensive models and models with many inputs. However, the limitations of existing methods still preclude their application to models with an extremely large number of inputs. In this work, we present practical extensions to the existing given-data Sobol' index method, which allow variance-based sensitivity analysis to be efficiently performed on ...

ID: 2509.09078v2 stat.ML, cs.LG, stat.AP, stat.CO

arXiv PDF

📄 Scalable extensions to given-data Sobol' index estimators

2025-09-13

Авторы:

Teresa Portone, Bert Debusschere, Samantha Yang, Emiliano Islas-Quinones, T. Patrick Xiao

#### Контекст Область варианс-базированной сенситивности (Sobol' index) играет ключевую роль в анализе влияния входных параметров на выходные показатели сложных моделей. Данные методы особенно важны для моделей, требующих высоких вычислительных затрат, таких как модели нейронных сетей, в которых число входных параметров может превышать $10^4$. Однако существующие методы стыкуются с ограничениями при работе с моделями этого класса. Особенно это касается методов, использующих "предварительно заданные" данные (given-data methods), которые требуют хранения всех входно-выходных данных в памяти, что быстро становится неоправданно ресурсоёмким. Наша мотивация заключается в развитии расширенных методов, позволяющих эффективно использовать имеющиеся данные для высокоточного анализа влияния входных параметров в случаях с очень большим числом параметров. #### Метод Мы разработали расширения существующих данных-данных методов, которые устраняют ключевые ограничения. В частности, мы предложили **обобщённое определение выборочного Sobol'-индекса** с произвольной разбивкой входных параметров. Также разработана **стриминговая алгоритмика**, позволяющая обрабатывать входно-выходные данные в батчах, что эффективно ограничивает требования к памяти. Для снижения шума в результатах мы внедрили **метод фильтрации незначительных индексов**, который отсеивает значения, не отличимые от нуля статистической точностью. Эти разработки позволяют применять данные методы к моделям с миллионами входных параметров, предоставляя точные и надежные результаты. #### Результаты Мы провели эксперименты на двух примерах моделей нейронных сетей, имеющих более $10^4$ параметров. Мы сравнили наши расширенные методы с существующими подходами, включая стандартную реализацию подхода Sobol' с эквипобабной разбивкой. Наши результаты показали, что расширенные методы не только эффективнее в терминах вычислительных затрат, но и обеспечивают более точные результаты, особенно при больших размерах выборки. Мы также проанализировали причины, по которым стандартная разбивка может привести к биазу в вычислениях, и демонстрировали, что наше решение эффективно отвечает этому вызову. #### Значимость Предложенные расширения позволяют расширить возможности данных методов до моделей, используемых в машинном обучении, системах многомерного управления, и даже некоторых приложениях в физике и биологии. Они эффективны в области моделей с большим числом входных параметров, где предыдущие методы были неэффективны. Это открывает новые горизонты для варианс-базированного анализа в та

Annotation:

ID: 2509.09078v1 stat.ML, cs.LG, stat.AP, stat.CO

arXiv PDF

📄 Amputation-imputation based generation of synthetic tabular data for ratemaking

2025-09-06

Авторы:

Yevhen Havrylenko, Meelis Käärik, Artur Tuttar

## Контекст Обработка страховых рисков и формирование страховых ставок (ратемейки) требуют высококачественных данных, которые часто ограничены доступом, вопросами конфиденциальности и стоимостью получения новых данных. Эти ограничения могут привести к неточности моделей ратемейки и неэффективному принятию решений. Несмотря на существующие подходы, включая методы машинного обучения, такие как вариационные автоэнкодеры и условные табулярные генеративно-состязательные сети, их применение в страховой отрасли все еще ограничено. Мы рассматриваем гибридный подход, основанный на методе Множественного Импьютеринга Заменяющим Цепями (MICE), в качестве альтернативы, который может обеспечить высококачественную генерацию табулярных данных с меньшими комплексностью и требованиями к ресурсам. ## Метод Метод MICE используется для заполнения пропусков в табличных данных, генерируя множество возможных вариантов для каждого пропущенного значения на основе корреляционных значений в данных. Мы расширяем этот подход для генерации новых табличных данных, используя несколько моделей MICE для каждой колонки данных. Для сравнения мы используем другие методы, такие как Variational Autoencoders (VAE) и Conditional Tabular GANs (CTGAN), оценивая качество синтетических данных по критериям взаимной информации, распределений переменных и связей между ними. Также мы оцениваем, насколько хорошо модели Generalized Linear Models (GLMs) могут работать с синтетическими данными, по сравнению с исходными данными. ## Результаты Мы применили наш подход к открытому данному набору данных, получив синтетические данные и использовав их для тренировки и тестирования моделей ратемейки. Мы выяснили, что MICE-based models показывают высокую точность в сохранении исходных распределений переменных и связей, а также демонстрируют более простой интерфейс по сравнению с другими методами. Мы также выяснили, что использование синтетических данных в сочетании с исходными данными может улучшить точность моделей GLMs на 10-15% в области прогнозирования числа страховых случаев. ## Значимость Метод MICE-based способен стать важной альтернативой для страховых компаний, которым требуется высококачественная табличная данная для ратемейки, но не имеют доступа к полному набору данных. Этот подход является более удобным в использовании, чем другие генеративные методы, так как не требует сложной настройки и может быть использован на разных данных без особых трудностей. Мы также показали, что применение синтетических данных может повысить точность моделей ратемейки, при этом уменьшить затраты на получение новых данных. ## Выводы Наши ре

Annotation:

Actuarial ratemaking depends on high-quality data, yet access to such data is often limited by the cost of obtaining new data, privacy concerns, etc. In this paper, we explore synthetic-data generation as a potential solution to these issues. In addition to discussing generative methods previously studied in the actuarial literature, we introduce to the insurance community another approach based on Multiple Imputation by Chained Equations (MICE). We present a comparative study using an open-sour...

ID: 2509.02171v1 stat.ML, cs.LG, stat.AP, 62P05 (Primary), 68T05, 68T07 (Secondary), I.2.1; I.2.6

arXiv PDF

📄 Non-Linear Model-Based Sequential Decision-Making in Agriculture

2025-09-05

Авторы:

Sakshi Arya, Wentao Lin

## Контекст Современные проблемы в сельском хозяйстве, такие как ограниченные ресурсы, изменение климата и рост численности населения, привели к необходимости развития эффективных методов управления сельскохозяйственными ресурсами. Одним из ключевых аспектов является **последовательное принятие решений** в области управления ресурсами, например, при оптимизации добавок удобрений или воды. Традиционные подходы, такие как линейные модели или техники случайных поисков, часто не учитывают специфику агротехнических задач и неэффективны в условиях неопределенности. Необходимо разработать методы, которые учитывали бы специфические характеристики сельскохозяйственных процессов и обеспечивали бы оптимальные решения с минимальными затратами ресурсов и времени. ## Метод Мы предлагаем семейство **нелинейных модели-основыных алгоритмов для последовательных решений** в сельском хозяйстве. Наш подход включает (i) **принципиальное оценивание неопределенности** и (ii) **закрытое выражение или быстро вычисляемые максимумы выгоды**. Модели учитывают характеристики отклика сельскохозяйственных систем, позволяя эффективно комбинировать эксплорацию и эксплойт критически важными ресурсами. Метод основан на теоретических границах для уменьшения **regret** (регрета) и поддерживает высокую точность при простых вычислениях. Эта модель является интерпретируемой, что позволяет легко рассуждать о результатах и принятии решений в сельском хозяйстве. ## Результаты Мы проводили эксперименты, используя симуляционные данные, которые эмулируют реальные задачи оптимизации добавок удобрений. Наши алгоритмы показали **сублинейный регрет** и получили близкие к оптимальным результаты в условиях небольшого количества наблюдений. Результаты постоянно превосходили линейные модели (например, UCB-линейная) и даже непараметрические базовые модели, такие как $k$-NN UCB. Эти результаты подтвердят эффективность нашего подхода в условиях **неопределенности** и **ограниченных данных**, где традиционные модели часто терпят неудачу. ## Значимость Наш подход имеет широкие приложения в **природоохране**, **управлении сельскохозяйственными ресурсами** и в области **искусственного интеллекта в агротехнике**. Он позволяет сделать сельское хозяйство более **данно-направленным**, **прозрачным** и **учетным**, что соответствует **Целям Общего Развития 2 (Холодное голод) и 12 (Ответственное Потребление и Производство)**. Наш подход может улучшить процессы принятия решений, уменьшить затраты ресурсов и сделать сельское

Annotation:

Sequential decision-making is central to sustainable agricultural management and precision agriculture, where resource inputs must be optimized under uncertainty and over time. However, such decisions must often be made with limited observations, whereas classical bandit and reinforcement learning approaches typically rely on either linear or black-box reward models that may misrepresent domain knowledge or require large amounts of data. We propose a family of nonlinear, model-based bandit algor...

ID: 2509.01924v1 stat.ML, cs.LG, stat.AP, stat.ME, 62P12, 91B06

arXiv PDF

📄 Tree-like Pairwise Interaction Networks

2025-08-23

Авторы:

Ronald Richman, Salvatore Scognamiglio, Mario V. Wüthrich

## Контекст Область исследования, связанная с моделированием взаимодействий фич в табулярных данных, является ключевой для решения проблем, таких как высокая точность прогнозирования в сегменте деятельности, например, в страховании. Несмотря на развитие методов статистического анализа и машинного обучения, возникают сложности в понимании интеракций между признаками и их вкладом в прогностическую модель. Исследователи стремятся к моделям, которые бы одновременно обеспечивали высокую точность и позволяли интерпретировать их результаты. Традиционные подходы, такие как градиентный бустинг над деревьями, эффективны, но часто неочевидны в их внутренней структуре. Другие подходы, такие как графовые сети, могут быть слишком громоздкими для работы с обычными табличными данными. Модель Tree-like Pairwise Interaction Network (PIN) предлагается как решение, которое объединяет эффективность и интерпретируемость. ## Метод PIN представляет собой изоморфическую модель взаимодействий табулярных данных, основанную на структуре дерева. Архитектура PIN включает в себя нейросеть, которая эмулирует древовидную структуру, где каждое вертикальное семейство интерфейсов между признаками управляется отдельным нейроном. Это позволяет явно отражать взаимодействия между признаками на разных уровнях сети. Использованные техники включают функции активации, широко распространенные в нейронных сетях (например, ReLU), и параметрические модели для построения взаимодействий. Для повышения скорости аппроксимации и оптимизации используются эффективные методы, такие как SHAP-вычисления, которые тесно интегрированы с архитектурой PIN. Это позволяет проводить точные интерпретации модели на уровне отдельных фич. ## Результаты Изучение PIN проводилось на запусках на данных, таких как данные от прайса автомобильных страхований во Франции. Была проведена эмпирическая оценка точности прогноза интерпретируемости в сравнении с такими моделями, как XGBoost и традиционные нейронные сети. Результаты показали, что PIN не только демонстрирует высокую точность, но и предоставляет ясную интерпретацию взаимодействий, что отсутствует у традиционных моделей. Эксперименты также показали, что PIN эффективно обрабатывает множество признаков и позволяет выявить самые важные взаимодействия. Кроме того, PIN позволяет эффективно вычислять SHAP-значения, что является ключевым преимуществом в сравнении с другими моделями. ## Значимость PIN может применяться в различных областях, где важно понимание взаимодействий между признаками, например, в страховании, финансах, и медицине. Также модель показывает преимущест

Annotation:

Modeling feature interactions in tabular data remains a key challenge in predictive modeling, for example, as used for insurance pricing. This paper proposes the Tree-like Pairwise Interaction Network (PIN), a novel neural network architecture that explicitly captures pairwise feature interactions through a shared feed-forward neural network architecture that mimics the structure of decision trees. PIN enables intrinsic interpretability by design, allowing for direct inspection of interaction ef...

ID: 2508.15678v1 stat.ML, cs.LG, stat.AP

arXiv PDF

📄 The C-index Multiverse

2025-08-22

Авторы:

Begoña B. Sierra, Colin McLean, Peter S. Hall, Catalina A. Vallejos

## Контекст Оценка дискриминационной силы моделей в задачах прогнозирования временных результатов является ключевым этапом моделирования и выбора методов. Одним из наиболее популярных показателей для этой цели является C-индекс (concordance index). Этот показатель широко используется в области прогнозирования временных результатов, особенно с появлением машинных обучающихся методов. Однако, несмотря на его популярность, существует множество вариантов реализаций C-индекса, которые могут приводить к разным результатам. Это негативно сказывается на реплицируемости исследований и сравнении моделей. Более того, различия в подходе к обработке отсутствующих значений и смещению при обработке выживаемости также влияют на C-индекс. В нашей работе мы исследуем эту сложность, названную "C-index multiverse", и предлагаем рекомендации для улучшения транспаренности и реплицируемости результатов моделирования. ## Метод Мы проводим детальный анализ различных реализаций C-индекса, доступных в R и Python, и исследуем их различия. Наша методология включает не только сравнение реализаций C-индекса, но и исследование того, как обработка отсутствующих значений и смещения в выживаемости влияют на показатель. Мы также проводим эксперименты с различными моделями прогнозирования временных результатов, включая Cox-модели, и сравниваем их показатели C-индекса на данных о болезни рака груди (breast cancer) и семи-синтетических примерах. ## Результаты Наши результаты показывают, что различия в реализациях C-индекса могут приводить к значительным отклонениям в показателе, даже если используются одинаковые данные и модели. Например, при использовании данных о болезни рака груди мы наблюдаем, что разные реализации C-индекса дают разные результаты, что может повлиять на выбор модели. На основе евристических примеров мы также показываем, что результаты могут отличаться в зависимости от того, как обрабатывается отсутствующая информация и смещение в выживаемости. ## Значимость Наше исследование показывает, что C-индекс может иметь разные реализации в разных программах, что влияет на результаты моделирования и статистического анализа. Эта ситуация может стать причиной несогласованности в результатах разных исследований. Мы разрабатываем руководство для аналитиков, помогающее им преодолевать проблемы, связанные с C-индексом, и предлагаем новые рекомендации по его использованию. Наша работа может помочь улучшить транспарентность и реплицируемость моделей в области прогнозирования временных результатов. ## Выводы Мы подтверждаем существование "C-index multiverse", где различные реализации C-индекс

Annotation:

Quantifying out-of-sample discrimination performance for time-to-event outcomes is a fundamental step for model evaluation and selection in the context of predictive modelling. The concordance index, or C-index, is a widely used metric for this purpose, particularly with the growing development of machine learning methods. Beyond differences between proposed C-index estimators (e.g. Harrell's, Uno's and Antolini's), we demonstrate the existence of a C-index multiverse among available R and pytho...

ID: 2508.14821v1 stat.ML, cs.LG, stat.AP

arXiv PDF

Показано 11 - 17 из 17 записей