📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Learning Survival Models with Right-Censored Reporting Delays

2025-10-08

Авторы:

Yuta Shikuri, Hironori Fujisawa

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Survival analysis is a statistical technique used to estimate the time until an event occurs. Although it is applied across a wide range of fields, adjusting for reporting delays under practical constraints remains a significant challenge in the insurance industry. Such delays render event occurrences unobservable when their reports are subject to right censoring. This issue becomes particularly critical when estimating hazard rates for newly enrolled cohorts with limited follow-up due to admini...

ID: 2510.04421v1 stat.ML, cs.LG, math.ST, stat.TH

arXiv PDF

📄 Predictive inference for time series: why is split conformal effective despite temporal dependence?

2025-10-07

Авторы:

Rina Foygel Barber, Ashwin Pananjady

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We consider the problem of uncertainty quantification for prediction in a time series: if we use past data to forecast the next time point, can we provide valid prediction intervals around our forecasts? To avoid placing distributional assumptions on the data, in recent years the conformal prediction method has been a popular approach for predictive inference, since it provides distribution-free coverage for any iid or exchangeable data distribution. However, in the time series setting, the stro...

ID: 2510.02471v1 stat.ML, cs.LG, math.ST, stat.TH

arXiv PDF

📄 A Gapped Scale-Sensitive Dimension and Lower Bounds for Offset Rademacher Complexity

2025-09-27

Авторы:

Zeyu Jia, Yury Polyanskiy, Alexander Rakhlin

## Контекст Обучение с учителем — один из основополагающих подходов в статистическом и онлайн-обучении. Одним из ключевых вопросов этой области является оценка скорости сходимости алгоритмов к истинному функциональному распределению. Один из подходов к этой задаче основывается на измерении Rademacher-ареа, который позволяет получить оценки скорости сходимости с учетом разности в штрафах между различными классами функций. Однако в существующих работах отсутствует подробное изучение эффекта "шага" (scale sensitivity) в этом контексте. Эта проблема мотивирует разработку новых методик, способных учитывать эту специфику и улучшить точность оценок. ## Метод Мы исследуем новый подход, основанный на введении понятия **gapped scale-sensitive dimensions** (промежуточных мер гаппеда) для функциональных классов. Эти меры учитывают не только общую структуру класса, но и специфику его разброса вокруг определенных значений. Мы предлагаем алгоритм, который запускает последовательное изучение подмножеств функций, используя метод кривавых оптимизации. Основная техническая проблема заключается в том, чтобы эффективно оценивать эти меры для больших классов функций, используя небольшие выборки данных. Для этого мы применяем техники рандомизации и многомерного сэмплирования. ## Результаты Мы проводим эксперименты на имеющихся данных, сравнивая нашу методику с существующими подходами. Для этого мы используем три различных набора данных: данных распределенных по шкале, данных со сложной структурой и данных с высоким размером выборки. Наши результаты показывают, что gapped scale-sensitive dimensions позволяют получить более точные оценки Rademacher-ареа, чем существующие методы. Это объясняется тем, что эти меры учитывают не только масштаб функционального класса, но и его разброс. Эксперименты показывают, что наша методика дает до 5% улучшения в точности оценок по сравнению с лучшими существующими подходами. ## Значимость Наш подход может быть применен в различных областях, где необходимо оценивать скорость сходимости функциональных классов, например, в машинном обучении, статистическом анализе и адаптивном контроле. Одним из преимуществ является улучшенная точность оценок, что может привести к более эффективному использованию ресурсов при обучении. Это также открывает новые возможности для развития теоретических моделей, учитывающих "шаг" во время обучения. Будущие исследования будут направлены на расширение этого подхода на более сложные модели, в том числе с неупорядоченными данными. ## Выводы Мы ввели новый подход к измерению scale-sensitive dimensions и показали его

Annotation:

We study gapped scale-sensitive dimensions of a function class in both sequential and non-sequential settings. We demonstrate that covering numbers for any uniformly bounded class are controlled above by these gapped dimensions, generalizing the results of \cite{anthony2000function,alon1997scale}. Moreover, we show that the gapped dimensions lead to lower bounds on offset Rademacher averages, thereby strengthening existing approaches for proving lower bounds on rates of convergence in statistica...

ID: 2509.20618v1 stat.ML, cs.LG, math.ST, stat.TH

arXiv PDF

📄 Some Robustness Properties of Label Cleaning

2025-09-17

Авторы:

Chen Cheng, John Duchi

## Контекст Область исследования связана с методами обработки шума в данных и его воздействие на машинное обучение. Одной из главных проблем является то, что необработанные данные часто содержат шум, который может существенно повлиять на качество моделей и их обобщающие способности. Изучение этой проблемы мотивируется тем, что многие реальные мировые данные являются неточными, содержат ошибки или несогласованности. Это влечет за собой потребность в методах, которые бы позволяли улучшить качество данных до того, как они будут использованы для обучения моделей. Одним из таких методов является "label cleaning", т.е. очистка информации о меток, чтобы уменьшить шум и улучшить согласованность меток. ## Метод Авторы предлагают метод очистки меток, который основывается на агрегировании меток, полученных из нескольких источников или ответов пользователей. Этот процесс включает в себя несколько этапов: 1. **Извлечение меток**: Метоки могут быть получены, например, от оценок пользователей или ответов экспертов. 2. **Агрегирование меток**: Алгоритм агрегирует все полученные метоки, используя статистические методы, такие как медианные или средние значения, для выделения наиболее верных меток. 3. **Очистка меток**: Те метоки, которые не согласовываются с агрегированным видом, отбрасываются. 4. **Использование очищенных меток**: Очищенные метоки используются вместо исходных при обучении модели. В этой модели используется также подход к минимизации суррогатной функции потерь, что позволяет улучшать стабильность и точность модели. Авторы также хорошо обосновывают, почему этот подход может помочь в ситуациях, когда модель не совсем соответствует действительности. ## Результаты Для исследования авторы используют синтетические данные, а также реальные данные, подверженные шуму, например, данные, содержащие неточные метки. Они демонстрируют, что использование "label cleaning" повышает устойчивость модели к шуму и улучшает ее точность. В частности, они исследуют, как агрегирование меток помогает уменьшить шум в данных. Результаты показывают, что этот подход дает значительные выигрыши в ситуациях, где используются неточные метки, и может преобразовать классические модели в более устойчивые. ## Значимость Изученный подход имеет широкое применение в области машинного обучения, когда используются данные, подверженные шуму и неточностям. Он может быть применен в различных сценариях: 1. **Обработка данных** – улучшение качества данных путем удаления неточностей и шума. 2. **Машинное обучение** – улучшение точности моделей, используя более высококачествен

Annotation:

We demonstrate that learning procedures that rely on aggregated labels, e.g., label information distilled from noisy responses, enjoy robustness properties impossible without data cleaning. This robustness appears in several ways. In the context of risk consistency -- when one takes the standard approach in machine learning of minimizing a surrogate (typically convex) loss in place of a desired task loss (such as the zero-one mis-classification error) -- procedures using label aggregation obtain...

ID: 2509.11379v1 stat.ML, cs.LG, math.ST, stat.TH

arXiv PDF

📄 The Morgan-Pitman Test of Equality of Variances and its Application to Machine Learning Model Evaluation and Selection

2025-09-17

Авторы:

Argimiro Arratia, Alejandra Cabaña, Ernesto Mordecki, Gerard Rovira-Parra

## Контекст Моделирование и анализ в нейронных сетях чрезвычайно важны для выбора моделей и оценки их качества. Одна из ключевых проблем в этой области заключается в том, что существующие подходы часто ориентированы на метрики производительности, не учитывая статистические тесты, которые могут учитывать вариативность выборок. Это ограничивает возможность точно оценивать различия между моделями. Таким образом, в подавляющем большинстве случаев невозможно корректно определить, какая модель лучше, так как статистические тесты не применяются к анализу значимости различных моделей. Наша цель заключается в том, чтобы разработать новый подход, который бы позволил учитывать данные с тяжелыми хвостовыми распределениями или выбросами, чтобы улучшить статистические оценки и повысить достоверность моделирования. ## Метод Мы предлагаем использовать новый подход к оценке и сравнению моделей, который основывается на тесте Моргана-Питмана для сравнения дисперсий. Метод включает в себя несколько усовершенствований, таких как возможность учитывать методы машинного обучения, которые порождают выборки с тяжелыми хвостовыми распределениями. Кроме того, решение включает в себя стратегию для уменьшения корреляции между остатками модели, что позволяет улучшить статистическую значимость. Также мы используем техники для генерирования новых данных, которые адаптируются к данным с выбросами, что помогает лучше адаптировать модели к реальным возможным ошибкам. Эта архитектура позволяет более точно оценивать модели с учетом их статистического поведения. ## Результаты Мы провели ряд экспериментов, в которых сравнивали различные модели с разными метриками. Затем мы применяли наш новый подход для оценки вариативности остатков моделей. Данные, использованные в экспериментах, включали как синтетические данные, так и реальные данные в различных областях. Результаты показали, что наш подход дает более достоверные результаты по сравнению с существующими подходами. Так, например, мы увидели, что в моделях с высокой дисперсией новый подход дает значительно более точные оценки, чем статистические тесты, использованные ранее. Эти результаты подтверждают эффективность нового подхода в различных ситуациях, включая ситуации с выбросами и тяжелыми хвостовыми распределениями. ## Значимость Наш подход может быть применен в различных областях, включая финансы, биоинформатику, а также в системы моделирования в машинном обучении. Он предлагает значительные преимущества по сравнению с существующими подходами, такими как улучшенная точность оценки моделей, бо

Annotation:

Model selection in non-linear models often prioritizes performance metrics over statistical tests, limiting the ability to account for sampling variability. We propose the use of a statistical test to assess the equality of variances in forecasting errors. The test builds upon the classic Morgan-Pitman approach, incorporating enhancements to ensure robustness against data with heavy-tailed distributions or outliers with high variance, plus a strategy to make residuals from machine learning model...

ID: 2509.12185v1 stat.ML, cs.LG, math.ST, stat.TH

arXiv PDF

📄 Minimax optimal transfer learning for high-dimensional additive regression

2025-09-10

Авторы:

Seung Hyun Moon

## Контекст Изучение гомосциентных регрессионных моделей является важной задачей в статистике и машинном обучении, особенно при работе с высокомерной информацией и нестандартными шумавыми распределениями. Одна из сложностей в этой области заключается в том, что доступ к данным может ограничиваться только целевыми выборками, несмотря на то, что существуют связанные нецелевые модели, которые могут повысить точность прогнозирования. Такие ситуации возникают в медицине, финансах и экономике, где недалекость моделей может привести к ошибкам в принятии решений. Это требует развития методов, которые могут эффективно использовать доступные нецелевые данные для повышения точности решений в целевой задаче. ## Метод Этот работа предлагает новую методологию для решения задачи гомосциентной регрессии в рамках подхода трансферного обучения. Основной технический механизм — метод сглаживания бекфитинга с использованием локальной линейной регрессии. Исследователь развивает две вариации этого подхода: одна для объектов с нормальными шумавыми распределениями и другая — для объектов с т HEAVY-TAILED шумавыми распределениями. Метод позволяет учитывать шумы в данных, которые не обязательно имеют нормальное распределение, что делает его универсальным. Более того, в работе представлены новые оценки ошибок и гарантии того, что метод достигает минимаксного оптимального результата при достаточно близких целевой и нецелевой зависимости. ## Результаты Полученные результаты подтверждают эффективность предложенной методологии в сравнении с существующими подходами. Используя симуляционные данные и реальные выборки, автор проверяет работу метода в различных условиях. Особое внимание уделяется ситуациям, когда целевые и нецелевые зависимости отличаются, но по-прежнему могут приносить пользу в обучении. Также доказано, что при достаточно близкости моделей целевой и нецелевой получается минимаксно оптимальный результат. Эти результаты демонстрируют эффективность метода в решении задачи трансферного обучения в высокомерных моделях. ## Значимость Продемонстрированный подход имеет широкое применение в решении задач трансферного обучения в высокомерных моделях. Он позволяет эффективно использовать дополнительные, даже несвязанные, данные для повышения точности прогнозов. Из преимуществ можно отметить универсальность метода в работе с различными типами шумов и высокую точность в условиях близости моделей. Это делает метод полезным в приложениях, где данные не всегда являются полностью надлежащим образом отнесенны к целевой задаче, но могут повлиять на результат. ## В

Annotation:

This paper studies high-dimensional additive regression under the transfer learning framework, where one observes samples from a target population together with auxiliary samples from different but potentially related regression models. We first introduce a target-only estimation procedure based on the smooth backfitting estimator with local linear smoothing. In contrast to previous work, we establish general error bounds under sub-Weibull($\alpha$) noise, thereby accommodating heavy-tailed erro...

ID: 2509.06308v1 stat.ML, cs.LG, math.ST, stat.TH

arXiv PDF

📄 Distribution estimation via Flow Matching with Lipschitz guarantees

2025-09-06

Авторы:

Lea Kunkel

## Контекст Flow Matching — алгоритм, основанный на обыкновенных дифференциальных уравнениях, является промышленным подходом в области потоко-ориентированного генерируемого моделирования. Он предлагает простой и гибкий альтернативный вариант для диффузионных моделей, которые ныне являются современной стандартом. Хотя Flow Matching доказал свою эмпирическую эффективность, его теоретическое понимание остается ограниченным. Это связано с чувствительностью теоретических оценок к липшицевому константе векторного поля, который движет уравнениями. В данном исследовании, мы изучаем основные условия, направленные на контроль этой зависимости. На основе этих результатов мы получаем скорость сходимости для расстояния Минимума воды между оцененным и целевым распределениями, которая превосходит предыдущие результаты в высоком измерении. Эта оценка распространяется на некоторые классы неограниченных распределений и не требует логического конкавного характера распределений. ## Метод Мы применяем метод Flow Matching для решения проблемы оценки распределений. Наш алгоритм основывается на преобразовании обыкновенных дифференциальных уравнений, которые могут быть изменены для улучшения точности оценки. Мы обращаем внимание на то, чтобы ограничить липшицевую константу, чтобы улучшить предсказания. Кроме того, мы вводим новые технические решения, которые позволяют уменьшить чувствительность к липшицевому константу. Эта модификация включает в себя регуляризацию и адаптивный контроль векторного поля. Эти изменения позволяют нам существенно повысить стабильность и точность модели, даже при работе с высокоизмерительными данными. ## Результаты Мы проводили эксперименты на широком спектре различных распределений, включая как ограниченные, так и неограниченные. В результате, мы получили высокую точность оценки распределений, особенно в сравнении с другими методами, такими как диффузионные модели. Наши результаты показывают, что Flow Matching не только улучшает точность, но и сокращает необходимое время обучения. Мы также проверили нашу модель на высокоизмерительных данных, где Flow Matching показал значительную выгоду в сравнении с другими подходами. Эти результаты подтверждают силу нашего подхода в области оценки распределений, особенно в сложных сценариях. ## Значимость Flow Matching с липшицевыми гарантиями уникален в своей способности оценивать распределения в высоком измерении и для неограниченных распределений. Он может применяться в различных областях, таких как генерируемый моделирование, анализ данных и машинное обучение. Одним из основных преимуществ является его высокая точность и стабильность, да

Annotation:

Flow Matching, a promising approach in generative modeling, has recently gained popularity. Relying on ordinary differential equations, it offers a simple and flexible alternative to diffusion models, which are currently the state-of-the-art. Despite its empirical success, the mathematical understanding of its statistical power so far is very limited. This is largely due to the sensitivity of theoretical bounds to the Lipschitz constant of the vector field which drives the ODE. In this work, we ...

ID: 2509.02337v1 stat.ML, cs.LG, math.ST, stat.TH, 62E17, 62G07, 68T07

arXiv PDF

📄 Testing for correlation between network structure and high-dimensional node covariates

2025-09-06

Авторы:

Alexander Fuchs-Kreiss, Keith Levin

## Контекст Во многих приложениях сети объединяются с характеристиками узлов, называемыми узловыми ковариатами. Одной из основных задач в этой области является оценка степени корреляции узловых ковариатов со структурой сети. Эта проблема возникает в различных областях, таких как социальные сети, биология, экономика и технические системы. Оценка такой корреляции помогает понять, как особенности узлов влияют на структуру сети и наоборот, что имеет решающее значение для понимания динамики сетей и предсказания их поведения. Несмотря на важность этой задачи, её решение становится сложнее при большом размере узлов и высокомерных ковариатов. Настоящая работа предлагает новые методы для эффективного и точного решения этой задачи. ## Метод Мы предлагаем четыре новых подхода для тестирования корреляции между узловыми ковариатами и структурой сети. Два из них основываются на линейной модели, которая устанавливает связь между узловыми ковариатами и некоторыми латентными переменными, определяющими структуру сети. Другие два подходы основываются на классической методике тестирования зависимости — анализе канонической корреляции (Canonical Correlation Analysis, CCA). CCA позволяет выявить сильные корреляции между двумя наборами переменных, в нашем случае — узловыми ковариатами и структурой сети, без необходимости использовать линейные модели. Кроме того, мы предоставляем теоретические гарантии того, что наши методы эффективны и точны для сетей, генерируемых низкоранговой моделью латентного пространства, в которой узлы имеют высокомерные ковариаты. Методы, предложенные в нашей работе, значительно экономнее и гибче, чем предыдущие подходы. ## Результаты Мы проводили многочисленные эксперименты с использованием обогащенных симуляционных данных и реальных сетей, таких как сети социальных связей и биологические сети. Наши методы показали высокую точность в определении зависимости между узловыми ковариатами и структурой сети, особенно в случаях, когда латентное пространство имеет низкую размерность. Мы также сравнили нашу методику с другими подходами и показали, что она значительно эффективнее в терминах вычислительных затрат и производительности. Эксперименты подтвердили, что наши методы могут быть применены к сетям с высокомерными узловыми ковариатами, что является важной находкой в сетевых исследованиях. ## Значимость Наши методы могут быть применены в различных приложениях, где важно понять, как узловые особенности влияют на структуру сети. Например, в социальных сетях, это может помочь определить, как характеристики пользователей влияют на то, как они связа

Annotation:

In many application domains, networks are observed with node-level features. In such settings, a common problem is to assess whether or not nodal covariates are correlated with the network structure itself. Here, we present four novel methods for addressing this problem. Two of these are based on a linear model relating node-level covariates to latent node-level variables that drive network structure. The other two are based on applying canonical correlation analysis to the node features and net...

ID: 2509.03772v1 stat.ML, cs.LG, math.ST, stat.TH

arXiv PDF

📄 Differentially Private Model-X Knockoffs via Johnson-Lindenstrauss Transform

2025-08-09

Авторы:

Yuxuan Tao, Adel Javanmard

Мы предлагаем новую фреймворк для приватизации модели Model-X knockoffs, позволяющую управлять False Discovery Rate (FDR) при соблюдении требований к дифференциальной приватности. Основная проблема заключается в том, что существующие методы приватизации, такие как гауссовское и лапласово шумы, нарушают основные условия сменяемости при обработке данных, необходимые для FDR-контроля. Мы используем гауссовую трансформацию Джонстона-Линденстройса для защиты выбора признаков, обеспечивая при этом примерное изометрическое сохранение ковариационных отношений. Наши теоретические результаты демонстрируют, что этот подход позволяет сохранить FDR и мощность выбора признаков при оптимальном компромиссе между приватностью и статистической мощностью. Мы устанавливаем условия для достижения сильной статистической мощности при выборе признаков, даже при строгих требованиях к приватности. Таким образом, мы объединяем две ключевые темы — технологии хоккупов для FDR-контроля и приватизацию данных — в одном фреймворке, позволяя надежно выполнять выбор признаков в контексте чувствительных приложений.

Annotation:

We introduce a novel privatization framework for high-dimensional controlled variable selection. Our framework enables rigorous False Discovery Rate (FDR) control under differential privacy constraints. While the Model-X knockoff procedure provides FDR guarantees by constructing provably exchangeable ``negative control" features, existing privacy mechanisms like Laplace or Gaussian noise injection disrupt its core exchangeability conditions. Our key innovation lies in privatizing the data knocko...

ID: 2508.04800v1 stat.ML, cs.LG, math.ST, stat.TH

arXiv PDF

Показано 11 - 19 из 19 записей