📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Yingying Fan, Jingyuan Liu, Jinchi Lv, Ao Sun

#### Контекст Изменения в структуре динамических сетей часто отражают критические трансформации в крупных данных. Однако определение этих изменений, называемых "change points," представляет задачу не только статистики, но и вычислительной лихорадки. Задача возникает из-за необходимости определить типичные шаблоны, которые могут быть скрыты в сложных структурах. Это становится особенно сложной, когда сети не только меняются, но и имеют сложные структуры, такие как малоранговые и спарсовые изменения. Модель MOSAIC (Minimax-Optimal Sparsity-Adaptive Inference for Change Points in Dynamic Networks) была разработана для эффективного обнаружения таких изменений, учитывая эти сложности. #### Метод Модель MOSAIC включает в себя несколько ключевых технических решений. Она использует методы эффективного линейного приближения для изменений, включая теорию матричной разложимости и методы экстремального сжатия. В процессе моделирования, MOSAIC анализирует динамические сети с использованием метода "screened signals," который позволяет определять спарсовые изменения с минимальным усреднением. Это достигается в том числе с помощью теории мартингалов, которая позволяет гарантировать стандартную нормальную распределенность статистики. Также, MOSAIC включает в себя методы, позволяющие адаптироваться к конкретным типам изменений в сетях, независимо от их масштаба. #### Результаты Модель MOSAIC была проверена на симуляционных примерах и реальных данных. На основе этих экспериментов, было установлено, что она подходит к минимаксной границе детекции в динамических сетях, находясь в пределах логарифмического потери. Модель достигает полной силы при тестировании при наличии изменений, а также оптимальна при отсутствии изменений. Эта модель показала значительное преимущество по сравнению с другими существующими алгоритмами в плане точности и скорости работы. #### Значимость Модель MOSAIC может применяться в различных областях, где динамические сети имеют важную роль, таких как мониторинг финансовых маркетов, транспортных систем и биологических сетей. Она предоставляет преимущество в том, что способна обнаруживать изменения в сетях независимо от их сложности и масштаба. Это дает возможность для более точного и эффективного анализа данных, которая может иметь решающее значение в принятии решений в реальном времени. #### Выводы Модель MOSAIC достигла новых подходов к обнаружению изменений в динамических сетях, включая те, что имеют спарсовые и малоранговые структуры. Она была подтверждена эффективностью в ряде экспериментов и имеет потенциал для расширения полезности в приложениях, где дина
Annotation:
We propose a new inference framework, named MOSAIC, for change-point detection in dynamic networks with the simultaneous low-rank and sparse-change structure. We establish the minimax rate of detection boundary, which relies on the sparsity of changes. We then develop an eigen-decomposition-based test with screened signals that approaches the minimax rate in theory, with only a minor logarithmic loss. For practical implementation of MOSAIC, we adjust the theoretical test by a novel residual-base...
ID: 2509.06303v1 stat.ML, cs.LG, stat.ME
Авторы:

Seung Hyun Moon

## Контекст Изучение гомосциентных регрессионных моделей является важной задачей в статистике и машинном обучении, особенно при работе с высокомерной информацией и нестандартными шумавыми распределениями. Одна из сложностей в этой области заключается в том, что доступ к данным может ограничиваться только целевыми выборками, несмотря на то, что существуют связанные нецелевые модели, которые могут повысить точность прогнозирования. Такие ситуации возникают в медицине, финансах и экономике, где недалекость моделей может привести к ошибкам в принятии решений. Это требует развития методов, которые могут эффективно использовать доступные нецелевые данные для повышения точности решений в целевой задаче. ## Метод Этот работа предлагает новую методологию для решения задачи гомосциентной регрессии в рамках подхода трансферного обучения. Основной технический механизм — метод сглаживания бекфитинга с использованием локальной линейной регрессии. Исследователь развивает две вариации этого подхода: одна для объектов с нормальными шумавыми распределениями и другая — для объектов с т HEAVY-TAILED шумавыми распределениями. Метод позволяет учитывать шумы в данных, которые не обязательно имеют нормальное распределение, что делает его универсальным. Более того, в работе представлены новые оценки ошибок и гарантии того, что метод достигает минимаксного оптимального результата при достаточно близких целевой и нецелевой зависимости. ## Результаты Полученные результаты подтверждают эффективность предложенной методологии в сравнении с существующими подходами. Используя симуляционные данные и реальные выборки, автор проверяет работу метода в различных условиях. Особое внимание уделяется ситуациям, когда целевые и нецелевые зависимости отличаются, но по-прежнему могут приносить пользу в обучении. Также доказано, что при достаточно близкости моделей целевой и нецелевой получается минимаксно оптимальный результат. Эти результаты демонстрируют эффективность метода в решении задачи трансферного обучения в высокомерных моделях. ## Значимость Продемонстрированный подход имеет широкое применение в решении задач трансферного обучения в высокомерных моделях. Он позволяет эффективно использовать дополнительные, даже несвязанные, данные для повышения точности прогнозов. Из преимуществ можно отметить универсальность метода в работе с различными типами шумов и высокую точность в условиях близости моделей. Это делает метод полезным в приложениях, где данные не всегда являются полностью надлежащим образом отнесенны к целевой задаче, но могут повлиять на результат. ## В
Annotation:
This paper studies high-dimensional additive regression under the transfer learning framework, where one observes samples from a target population together with auxiliary samples from different but potentially related regression models. We first introduce a target-only estimation procedure based on the smooth backfitting estimator with local linear smoothing. In contrast to previous work, we establish general error bounds under sub-Weibull($\alpha$) noise, thereby accommodating heavy-tailed erro...
ID: 2509.06308v1 stat.ML, cs.LG, math.ST, stat.TH
Авторы:

Yian Huang, Yang Feng, Zhiliang Ying

## Контекст Работа посвящена развитию методов многозадачного обучения (MTL), которые стремятся эффективно обучать несколько задач одновременно, совместно используя структуру, общую для всех задач. Однако, практическое применение таких методов часто ограничивается существующими проблемами, такими как наличие контamination (выбросов или адверсарных задач), неоднородность задач и недостаток предварительной информации о зависимости между задачами. Существующие подходы, в том числе и теоретические, часто основываются на предположении о чистых данных или незначительном количестве контamination. Фактический выбор в реальных ситуациях часто становится нарушенным, что приводит к подрыву эффективности таких методов. Целью данной работы является разработка метода, который может эффективно быть применен в ситуациях с подложенными задачами, незначительным количеством контamination и неоднородностью внутри задач. ## Метод Разработанный метод, Robust and Adaptive Spectral (RAS), является адаптивным и устойчивым по отношению к контamination. Он основывается на использовании спектральных методов для выделения основной группы взаимосвязанных задач, а также на адаптивном контроле того, как зависимость между задачами может быть выражена в данных. Метод не требует предварительного знания о количестве контamination или размерности общего пространства, что делает его универсальным и легким в реализации. Основной идеей заключается в том, что RAS адаптивно извлекает информацию из данных, не поддающихся влиянию контamination, и сохраняет точность, необходимую для эффективного обучения. ## Результаты Эксперименты для проверки подхода RAS проводились на различных синтетических и реальных данных, включая задачи классификации и регрессии. Для этих задач были созданы ситуации с разным уровнем контamination, включая адверсарные задачи и незначительность основного вклада задач. Результаты показали, что RAS показывает высокую точность и устойчивость, даже при 80% контamination. Также было проведено сравнение с другими подходами в MTL, показав преимущества RAS в области сильно загрязненных данных. ## Значимость Разработанный подход имеет широкие применения в области многозадачного обучения, где требуется хранить эффективность даже при высоком количестве контamination. Он может применяться в различных сферах, таких как обработка языка, моделирование экономических данных, и даже медицинской интеллектуальной обработке данных. Основное преимущество RAS заключается в его устойчивости к загрязненным данным, что позволяет избежать негативного переобучения, которое может быть вызвано контamination. Это открывает новые возможности для применения MTL в реальных, часто за
Annotation:
Representation-based multi-task learning (MTL) improves efficiency by learning a shared structure across tasks, but its practical application is often hindered by contamination, outliers, or adversarial tasks. Most existing methods and theories assume a clean or near-clean setting, failing when contamination is significant. This paper tackles representation MTL with an unknown and potentially large contamination proportion, while also allowing for heterogeneity among inlier tasks. We introduce a...
ID: 2509.06575v1 stat.ML, cs.LG, stat.ME
Авторы:

Yinjie Wang, Doudou Zhou, Yue Liu, Junwei Lu, Tianxi Cai

## Контекст Современное здравоохранение сильно полагается на электронные медицинские рекорды (Electronic Health Records, EHRs), которые содержат разнообразные клинические данные, включая диагнозы, лекарственные препараты и лабораторные исследования. Эти данные имеют большое значение для трансляционных исследований, поддержки клинических исследований и получения реального мирового опыта. Однако синтез данных EHR из разных институтов сталкивается с тем, что медицинские коды и терминологии имеют индивидуальные особенности для каждого заведения, а также не существует единого стандарта для структурирования EHR. Эти проблемы снижают понимание, сравнимость и масштабируемость EHR-данных, что ограничивает мощность анализа. Необходимо разработать методы, которые позволят гармонизировать и извлекать смысловые отношения из разных источников клинических данных. ## Метод Мы предлагаем MASH (Multi-source Automated Structured Hierarchy), полностью автоматизированную систему, которая строит иерархические графы на основе нейронного способа оптимального транспорта и использует гиперболические входящие преобразования для построения графов. В процессе тренировки MASH использует предварительно обученные языковые модели, модели основанные на сочетаниях встречаемости, текстовые описания и заданные метки, чтобы лучше ловить семантические и иерархические отношения в медицинских понятиях. Это позволяет ему точно сопоставлять медицинские коды между различными заведениями и строить интерпретируемые иерархические графы для более эффективного анализа клинических данных. ## Результаты Мы применили MASH к реальным данным EHR, включая диагнозы, лекарства и лабораторные результаты. Это позволило построить иерархические графы, которые упростили процесс разбора и понимания разнообразных клинических данных. Особенно заметно было это в случае неструктурированных локальных лабораторных кодов, для которых MASH сформировал первые автоматические иерархии, создав новые стандарты для последующих исследований в этой области. ## Значимость Разработанный подход может быть применен в различных областях здравоохранения, включая генерацию реального мирового опыта, оптимизацию клинических исследований и преодоление барьеров, связанных с хранением данных. Он предоставляет новый способ для понимания разнообразных и распределенных клинических данных, что может способствовать повышению качества здравоохранения и более точного диагностирования. Будущие исследования будут сконцентрированы на улучшении точности и масштабируемости этого подхода для более широкого применения в различных медицинских задачах. ## Выво
Annotation:
Electronic Health Records (EHRs), comprising diverse clinical data such as diagnoses, medications, and laboratory results, hold great promise for translational research. EHR-derived data have advanced disease prevention, improved clinical trial recruitment, and generated real-world evidence. Synthesizing EHRs across institutions enables large-scale, generalizable studies that capture rare diseases and population diversity, but remains hindered by the heterogeneity of medical codes, institution-s...
ID: 2509.06576v1 stat.ML, cs.LG
Авторы:

Guan-Yu Chen, Xi Yang

#### Контекст Моделирование и оценка параметров в линейных статистических моделях широко применяется в различных областях, включая экономику, биологию, инженерию и телекоммуникации. Однако в условиях больших объемов данных возникают значительные вычислительные затруднения. Многие существующие алгоритмы страдают от высокого расхода ресурсов или неэффективности при обработке таких моделей. Это приводит к необходимости разработки более эффективных методов для построения и оценки параметров в таких моделях. #### Метод Мы предлагаем novel фреймворк, Sequential Least-Squares Estimators with Fast Randomized Sketching (SLSE-FRS), который совмещает Sketch-and-Solve и Iterative-Sketching методы. Это решение позволяет постепенно улучшать точность оценок параметров с помощью iterative рефинининга подскаленных least-squares (LS) задач. SLSE-FRS использует randomized sketching для эффективной сжатия данных, обеспечивая высокую скорость работы. Мы также анализируем свойства сходимости этого алгоритма и предлагаем его эффективную реализацию. #### Результаты Наши эксперименты проводились на больших данных, включающих многомерные модели. Мы сравнили SLSE-FRS с двумя современными методами: Preconditioned Conjugate Gradient (PCG) и Iterative Double Sketching (IDS). Результаты показали, что SLSE-FRS не только быстрее, но и показывает высокую точность, превосходя конкурентные методы во всех соответствующих аспектах. #### Значимость Предложенный фреймворк SLSE-FRS может применяться в областях, где требуется быстрая и точная оценка параметров в линейных моделях, таких как data stream processing, machine learning и другие. Он обеспечивает высокую эффективность и превосходство по сравнению с другими методами. Будущие исследования будут нацелены на расширение SLSE-FRS для других моделей и приложений, а также на оптимизацию его использования в реальном времени. #### Выводы Мы представили SLSE-FRS — новую, эффективную и точную методику для оценки параметров в линейных статистических моделях. Данный подход показал не только высокую эффективность, но и превосходство по сравнению с другими существующими методами. Наша работа открывает новые пути для дальнейших исследований в этой области.
Annotation:
We propose a novel randomized framework for the estimation problem of large-scale linear statistical models, namely Sequential Least-Squares Estimators with Fast Randomized Sketching (SLSE-FRS), which integrates Sketch-and-Solve and Iterative-Sketching methods for the first time. By iteratively constructing and solving sketched least-squares (LS) subproblems with increasing sketch sizes to achieve better precisions, SLSE-FRS gradually refines the estimators of the true parameter vector, ultimate...
ID: 2509.06856v1 stat.ML, cs.LG, cs.NA, math.NA
Авторы:

Nils Detering, Luca Galimberti, Anastasis Kratsios, Giulia Livieri, A. Martina Neuman

## Контекст Одним из основных применений графовых нейронных сетей является трансдуктивное классификационное решение, при котором отсутствующие метки выводятся из текущего наблюдаемого графа и его матрицы признаков. Несмотря на широкое использование такого подхода, основные статистические фундаменты трансдуктивной классификации остаются недостаточно сильно развиты. Это обусловлено тем, что стандартные модели инференса обычно основываются на множестве независимых выборок, а не на работе с отдельным графом. Данная работа нацелена на устранение этих проблем, используя новые инструменты концентрации меры, которые используют геометрические регулярности больших графов, основываясь на низкоразмерных метрических эмбеддингах. Моделируемая регулярность опирается на графовую модель, однако применение методов возможно и для определенных установившихся графов. ## Метод Методология, развитая в работе, основывается на развитии новых инструментов кванторной статистики, которые используют геометрические регулярности больших графов. Эти регулярности характеризуются с помощью низкоразмерных метрических эмбеддингов. Модели графов, используемые в работе, опираются на графовую модель, однако их применение возможно и для детерминированных графов, полученных при некоторой наблюдаемой реализации. Далее, авторы расширяют методологию на случай графовых нейронных сетей, решая дополнительные вызовы, связанные с учетом архитектуры сетей. ## Результаты В результате работы авторы получили два основных теоретических результата. Один из них касается произвольных $k$-вершинных графов, а другой сосредотачивается на случайных графах, делящихся с основными геометрическими свойствами графа Эрдёса-Реньи в режиме $p \in \mathcal{O}((\log (k)/k)^{1/2})$. Первый результат стал основой для доказательства второго. Далее авторы расширяют свои теоретические открытия на случай графовых нейронных сетей, решая дополнительные проблемы, связанные с их архитектурой. Наконец, гарантии обучения остаются в значительной степени информативными даже при небольшом числе отмеченных вершин $N$, достигнув оптимальной скорости непараметрического обучения $\mathcal{O}(N^{-1/2})$ при увеличении $N$. ## Значимость Результаты работы широко могут применяться в различных областях, где применяются графовые методы, таких как социальные сети, биология, технические системы и др. Основным преимуществом нового подхода является его универсальность и пригодность для различных типов графов, в том числе и недетерминированных. Это
Annotation:
Since their introduction by Kipf and Welling in $2017$, a primary use of graph convolutional networks is transductive node classification, where missing labels are inferred within a single observed graph and its feature matrix. Despite the widespread use of the network model, the statistical foundations of transductive learning remain limited, as standard inference frameworks typically rely on multiple independent samples rather than a single graph. In this work, we address these gaps by develop...
ID: 2509.06894v1 stat.ML, cs.LG, math.MG, math.PR, math.ST, stat.TH
Авторы:

Wei Chen, Shigui Li, Jiacheng Li, Jian Xu, Zhiqi Lin, Junmei Yang, Delu Zeng, John Paisley, Qibin Zhao

#### Контекст Any-step density ratio estimation (DRE) является ключевым проблемой в машинном обучении, обладающим широкими приложениями в задачах, таких как смарт-трейдинг, динамический риск-минтинг, и генетические алгоритмы. Однако, существующие методы часто страдают от торговли между точностью и эффективностью. Например, в задачах смарт-трейдинга, точность DRE может повлиять на качество рекомендаций, тогда как в задачах генетических алгоритмов может быть жертвовано эффективностью, чтобы достичь точности. Из-за этого, разработка метода, который обеспечивает как точность, так и эффективность, была долгосрочной целью в области. #### Метод Предлагаемый метод, **Interval-annealed Secant Alignment Density Ratio Estimation (ISA-DRE)**, новый подход к DRE. Он избегает непосредственного моделирования тангентов, которые используются в традиционных методах, а вместо этого учит глобальную функцию секанта, которая является средним значением тангентов над интервалом. Это обеспечивает более низкую переменой и позволяет удобнее использовать для нейронных аппроксимаций. Основной инструментом является **Secant Alignment Identity**, который синхронизирует секантную функцию с её тангентными представлениями. Чтобы улучшить стабильность обучения в начальных этапах, мы представили **Contraction Interval Annealing**, стратегию, постепенно расширяющую интервал в процессе обучения, что приводит к зарождению контрактирующего отображения и улучшению устойчивости обучения. #### Результаты Проведенные эксперименты показали, что ISA-DRE достигает конкурентной точности с значительно меньшим числом вызовов функций по сравнению с предыдущими методами. Например, в задаче смарт-трейдинга, ISA-DRE показал скорость работы, которая значительно превосходит существующие методы. Это делает ISA-DRE подходящим для реального времени и интерактивных приложений. #### Значимость ISA-DRE может быть применен в широком спектре задач машинного обучения, таких как задачи смарт-трейдинга, динамическое риск-минтинг, и генетические алгоритмы. Его отличительным качеством является более высокая точность с меньшим количеством вызовов функций, что делает его уникальным в сравнении с другими подходами. Такой подход позволяет использовать метод в ситуациях, где необходима высокая реактивность и стабильность, таких как экономические модели и интерактивные системы. #### Выводы Предлагаемый ISA-DRE является прорывом в области DRE, обеспечивая высокую точность с меньшим количеством вызовов функций. Будущие исследования будут сконцентрированы на расширении этого подхода для других машинного обучения задач, включая слож
Annotation:
Estimating density ratios is a fundamental problem in machine learning, but existing methods often trade off accuracy for efficiency. We propose \textit{Interval-annealed Secant Alignment Density Ratio Estimation (ISA-DRE)}, a framework that enables accurate, any-step estimation without numerical integration. Instead of modeling infinitesimal tangents as in prior methods, ISA-DRE learns a global secant function, defined as the expectation of all tangents over an interval, with provably lower v...
ID: 2509.04852v1 stat.ML, cs.LG
Авторы:

Ren-Rui Liu, Zheng-Chu Guo

## Контекст Область исследования спектральных алгоритмов в рамках некорректно заданной регрессии (misspecified regression), особенно при наличии расхождения между распределениями входных переменных (covariate shift), остается относительно неразвитой. Такое расхождение возникает, когда распределение признаков в источнике (source domain) отличается от распределения в целевой (target domain). Несмотря на то, что целевая функция может не принадлежать пространству репрезентации, важно разработать методы, которые будут обеспечивать стабильное и точное обучение. Это вызвано тем, что в реальных задачах, таких как машинное обучение с небольшими данными или задачи здоровья, такие расхождения в распределениях широко распространены. Таким образом, мотивация для данного исследования заключается в развитии теории и практических методов, позволяющих эффективно обучать модели в таких сложных условиях. ## Метод Данная работа рассматривает спектральные алгоритмы в качестве регуляризационных методов, происхождение которых относится к задачам инверсии. Основной инновацией является включение в фреймворк обучения весовых множителей, которые представляют собой отношение целевых к источниковым плотностям распределений. Это приводит к варианту спектрального алгоритма в рамках непараметрической регрессии в репрезентационном гильбертовом пространстве (RKHS). Для случая усредненного веса, авторы устанавливают минимаксно-оптимальные скорости сходимости, когда целевая функция принадлежит RKHS. В случае неограниченных весов, авторы предлагают новую трансформацию весов, которая позволяет получить близкие к оптимальным скорости сходимости, даже если целевая функция не принадлежит пространству RKHS. Этот подход расширен на случай misspecified regression, где авторы демонстрируют, как можно получать приемлемые результаты даже при несовпадении пространств регрессии. ## Результаты Результаты исследования основываются на экспериментальных и теоретических анализах. Использованы синтетические данные и реальные задачи, в том числе задачи машинного обучения с небольшими данными. Авторы показали, что их подход позволяет оптимально регулировать модель при наличии расхождений в распределениях, а также при несовпадении базовых пространств регрессии. На практических задачах, таких как задача классификации и регрессии, алгоритм показал высокую точность и стабильность в ситуациях, где другие методы проваливаются. Таким образом, результаты подтверждают эффективность нового подхода в исследованиях, связанных с misspecified regression. ## Значимость Основное значение данной работы заключается в ее применимости к реальным задачам, где распределения признаков в источни
Annotation:
This paper investigates the convergence properties of spectral algorithms -- a class of regularization methods originating from inverse problems -- under covariate shift. In this setting, the marginal distributions of inputs differ between source and target domains, while the conditional distribution of outputs given inputs remains unchanged. To address this distributional mismatch, we incorporate importance weights, defined as the ratio of target to source densities, into the learning framework...
ID: 2509.05106v1 stat.ML, cs.LG
Авторы:

Benjamin J. Zhang, Siting Liu, Stanley J. Osher, Markos A. Katsoulakis

#### Контекст Обучение операторной модели (Operator Learning) является важной задачей в математических моделях, которая направлена на вывод решений уравнений относительно неизвестных функций и параметров. Операторы, такие как решающие уравнения ОДУ и ОПДУ, играют ключевую роль в физике, химии, инженерии и других областях. Однако существуют сложности в точном вычислении решений из-за сложности уравнений и разнообразия исходных данных. На данный момент существуют методы, которые основываются на нейронных сетях и позволяют решать такие задачи, но они либо имеют низкую точность, либо не учитывают неопределенность в решениях. Данная работа вводит подход, который объединяет подходы генерирующей модели и закрепляет неопределенность в процессе обучения. #### Метод Данная работа представляет собой новую методологию, основанную на подходе In-context Operator Networks (ICON). ICON является классом операторных методов, основывающихся на архитектуре фундаментальных моделей. Эта модель обучается на разнообразных наборах данных, содержащих условия начала и границы, а также соответствующие решения уравнений (ОДУ и ОПДУ). Базовая идея заключается в том, что ICON учится отображать условия и решения на приближение решающего оператора. В данной работе представлен проблематический фреймворк, подчеркивающий, что ICON производит типичное байесовское выводное вычисление, получая предсказание на основе примеров условий и решений. Такой фреймворк позволяет расширить ICON в область генерирующих моделей, которые могут создавать примеры решений с рассмотрением неопределенности. #### Результаты Проведенные эксперименты показали, что ICON может эффективно решать задачи решения ОДУ и ОПДУ, а также обеспечивать предсказания с рассмотрением неопределенности. Использовались разные данные, включая генерируемые задачи ОДУ и ОПДУ, что позволило проверить работу модели в задачах с разными уровнями сложности. Основной результат - значительное повышение точности решений в сравнении с другими методами обучения операторов, а также возможность учитывать неопределенность в процессе предсказания решений. #### Значимость Представленная работа имеет значительное значение в области операторного обучения и приложений в сложных системах. Она может применяться в областях, где необходимо решать нелинейные уравнения (например, в физике, химии, инженерии). Одним из ключевых преимуществ является возможность качественного описания неопределенности в решениях, что значительно улучшает надежность приложений, основанных на таких моделях. Более того, полученная работа открывает возможность расширения ICON для генерирую
Annotation:
In-context operator networks (ICON) are a class of operator learning methods based on the novel architectures of foundation models. Trained on a diverse set of datasets of initial and boundary conditions paired with corresponding solutions to ordinary and partial differential equations (ODEs and PDEs), ICON learns to map example condition-solution pairs of a given differential equation to an approximation of its solution operator. Here, we present a probabilistic framework that reveals ICON as i...
ID: 2509.05186v2 stat.ML, cs.LG, cs.NA, math.NA
Авторы:

Yevhen Havrylenko, Meelis Käärik, Artur Tuttar

## Контекст Обработка страховых рисков и формирование страховых ставок (ратемейки) требуют высококачественных данных, которые часто ограничены доступом, вопросами конфиденциальности и стоимостью получения новых данных. Эти ограничения могут привести к неточности моделей ратемейки и неэффективному принятию решений. Несмотря на существующие подходы, включая методы машинного обучения, такие как вариационные автоэнкодеры и условные табулярные генеративно-состязательные сети, их применение в страховой отрасли все еще ограничено. Мы рассматриваем гибридный подход, основанный на методе Множественного Импьютеринга Заменяющим Цепями (MICE), в качестве альтернативы, который может обеспечить высококачественную генерацию табулярных данных с меньшими комплексностью и требованиями к ресурсам. ## Метод Метод MICE используется для заполнения пропусков в табличных данных, генерируя множество возможных вариантов для каждого пропущенного значения на основе корреляционных значений в данных. Мы расширяем этот подход для генерации новых табличных данных, используя несколько моделей MICE для каждой колонки данных. Для сравнения мы используем другие методы, такие как Variational Autoencoders (VAE) и Conditional Tabular GANs (CTGAN), оценивая качество синтетических данных по критериям взаимной информации, распределений переменных и связей между ними. Также мы оцениваем, насколько хорошо модели Generalized Linear Models (GLMs) могут работать с синтетическими данными, по сравнению с исходными данными. ## Результаты Мы применили наш подход к открытому данному набору данных, получив синтетические данные и использовав их для тренировки и тестирования моделей ратемейки. Мы выяснили, что MICE-based models показывают высокую точность в сохранении исходных распределений переменных и связей, а также демонстрируют более простой интерфейс по сравнению с другими методами. Мы также выяснили, что использование синтетических данных в сочетании с исходными данными может улучшить точность моделей GLMs на 10-15% в области прогнозирования числа страховых случаев. ## Значимость Метод MICE-based способен стать важной альтернативой для страховых компаний, которым требуется высококачественная табличная данная для ратемейки, но не имеют доступа к полному набору данных. Этот подход является более удобным в использовании, чем другие генеративные методы, так как не требует сложной настройки и может быть использован на разных данных без особых трудностей. Мы также показали, что применение синтетических данных может повысить точность моделей ратемейки, при этом уменьшить затраты на получение новых данных. ## Выводы Наши ре
Annotation:
Actuarial ratemaking depends on high-quality data, yet access to such data is often limited by the cost of obtaining new data, privacy concerns, etc. In this paper, we explore synthetic-data generation as a potential solution to these issues. In addition to discussing generative methods previously studied in the actuarial literature, we introduce to the insurance community another approach based on Multiple Imputation by Chained Equations (MICE). We present a comparative study using an open-sour...
ID: 2509.02171v1 stat.ML, cs.LG, stat.AP, 62P05 (Primary), 68T05, 68T07 (Secondary), I.2.1; I.2.6
Показано 451 - 460 из 564 записей