📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Geometric Calibration and Neutral Zones for Uncertainty-Aware Multi-Class Classification

2025-11-28

Авторы:

Soumojit Das, Nairanjana Dasgupta, Prashanta Dutta

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Modern artificial intelligence systems make critical decisions yet often fail silently when uncertain. We develop a geometric framework for post-hoc calibration of neural network probability outputs, treating probability vectors as points on the $(c-1)$-dimensional probability simplex equipped with the Fisher--Rao metric. Our approach yields Additive Log-Ratio (ALR) calibration maps that reduce exactly to Platt scaling for binary problems (Proposition~1) while extending naturally to multi-class ...

ID: 2511.20960v1 stat.ML, cs.LG, math.ST, stat.ME

arXiv PDF

📄 Minimax-Optimal Two-Sample Test with Sliced Wasserstein

2025-11-04

Авторы:

Binh Thuan Tran, Nicolas Schreuder

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We study the problem of nonparametric two-sample testing using the sliced Wasserstein (SW) distance. While prior theoretical and empirical work indicates that the SW distance offers a promising balance between strong statistical guarantees and computational efficiency, its theoretical foundations for hypothesis testing remain limited. We address this gap by proposing a permutation-based SW test and analyzing its performance. The test inherits finite-sample Type I error control from the permutati...

ID: 2510.27498v1 stat.ML, cs.LG, math.ST, stat.ME, stat.TH

arXiv PDF

📄 Kernel-Based Nonparametric Tests For Shape Constraints

2025-10-22

Авторы:

Rohan Sen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We develop a reproducing kernel Hilbert space (RKHS) framework for nonparametric mean-variance optimization and inference on shape constraints of the optimal rule. We derive statistical properties of the sample estimator and provide rigorous theoretical guarantees, such as asymptotic consistency, a functional central limit theorem, and a finite-sample deviation bound that matches the Monte Carlo rate up to regularization. Building on these findings, we introduce a joint Wald-type statistic to te...

ID: 2510.16745v2 stat.ML, cs.LG, math.ST, stat.ME, stat.TH, 62G10, 62G20, 62P05, 46E22

arXiv PDF

📄 Foresighted Online Policy Optimization with Interference

2025-10-21

Авторы:

Liner Xiang, Jiayi Wang, Hengrui Cai

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Contextual bandits, which leverage the baseline features of sequentially arriving individuals to optimize cumulative rewards while balancing exploration and exploitation, are critical for online decision-making. Existing approaches typically assume no interference, where each individual's action affects only their own reward. Yet, such an assumption can be violated in many practical scenarios, and the oversight of interference can lead to short-sighted policies that focus solely on maximizing th...

ID: 2510.15273v1 stat.ML, cs.LG, math.ST, stat.ME, stat.TH

arXiv PDF

📄 Transfer Learning with Distance Covariance for Random Forest: Error Bounds and an EHR Application

2025-10-16

Авторы:

Chenze Li, Subhadeep Paul

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Random forest is an important method for ML applications due to its broad outperformance over competing methods for structured tabular data. We propose a method for transfer learning in nonparametric regression using a centered random forest (CRF) with distance covariance-based feature weights, assuming the unknown source and target regression functions are different for a few features (sparsely different). Our method first obtains residuals from predicting the response in the target domain usin...

ID: 2510.10870v1 stat.ML, cs.LG, math.ST, stat.ME, stat.TH

arXiv PDF

📄 CINDES: Classification induced neural density estimator and simulator

2025-10-04

Авторы:

Dehao Dai, Jianqing Fan, Yihong Gu, Debarghya Mukherjee

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Neural network-based methods for (un)conditional density estimation have recently gained substantial attention, as various neural density estimators have outperformed classical approaches in real-data experiments. Despite these empirical successes, implementation can be challenging due to the need to ensure non-negativity and unit-mass constraints, and theoretical understanding remains limited. In particular, it is unclear whether such estimators can adaptively achieve faster convergence rates w...

ID: 2510.00367v1 stat.ML, cs.LG, math.ST, stat.ME, stat.TH, 62G08

arXiv PDF

📄 One-shot Conditional Sampling: MMD meets Nearest Neighbors

2025-10-03

Авторы:

Anirban Chatterjee, Sayantan Choudhury, Rohan Hore

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

How can we generate samples from a conditional distribution that we never fully observe? This question arises across a broad range of applications in both modern machine learning and classical statistics, including image post-processing in computer vision, approximate posterior sampling in simulation-based inference, and conditional distribution modeling in complex data settings. In such settings, compared with unconditional sampling, additional feature information can be leveraged to enable mor...

ID: 2509.25507v1 stat.ML, cs.LG, math.ST, stat.ME, stat.TH

arXiv PDF

📄 Bias-variance Tradeoff in Tensor Estimation

2025-09-24

Авторы:

Shivam Kumar, Haotian Xu, Carlos Misael Madrid Padilla, Yuehaw Khoo, Oscar Hernan Madrid Padilla, Daren Wang

#### Контекст Понимание торгового бизнеса в третьей линии требует понимания стратегических и технических аспектов торговли. В настоящее время существуют проблемы в том, что невозможно приобрести товары напрямую у производителя, а международные сделки требуют понимания дополнительных аспектов, включая налоги, правила и процедуры. Это приводит к дополнительным затратам и риску возникновения ошибок во время процесса. Учитывая эти проблемы, необходимы методы, позволяющие упростить и оптимизировать торговые процессы. #### Метод Мы предлагаем развитие комплексного подхода, включающего в себя моделирование, анализ и оптимизацию торговых процессов с использованием современных технологий. Наш метод включает: - **Моделирование:** Разработка моделей, описывающих структуру и поведение торгового бизнеса. - **Анализ:** Использование статистических и аналитических методов для оценки эффективности существующих процессов. - **Оптимизация:** Использование методов оптимизации, таких как линейная и нелинейная программирования, для улучшения процессов. Методология основывается на построении моделей взаимодействия участников торговли, использовании машинного обучения для прогнозирования рыночных динамик и оптимизации цепочки поставок. #### Результаты Мы проводили эксперименты на реальных данных, включающих транзакционные данные с магазинов, цены на товары, спрос и предложение. Наши результаты показали, что применение предложенного подхода привело к снижению затрат на процессы поставок и увеличению эффективности торговых операций. Мы также оценили показатели, такие как снижение сроков поставки, улучшение уровня обслуживания клиентов и увеличение прибыли. #### Значимость Наши результаты имеют значительное значение для торгового бизнеса, в частности для улучшения процессов поставок и управления запасами. Использование предложенного подхода может привести к сокращению затрат, улучшению качества услуг и увеличению прибыли. Благодаря оптимизации цепочки поставок, можно сократить временные промежутки и улучшить удовлетворенность клиентов. #### Выводы Предложенный подход демонстрирует эффективность в управлении торговыми процессами с помощью моделирования и оптимизации. Будущие исследования будут ориентироваться на расширение моделей для добавления дополнительных факторов, таких как маркетинговые аспекты и риски, а также на улучшение системы прогнозирования и реагирования на изменения рынка.

Annotation:

We study denoising of a third-order tensor when the ground-truth tensor is not necessarily Tucker low-rank. Specifically, we observe $$ Y=X^\ast+Z\in \mathbb{R}^{p_{1} \times p_{2} \times p_{3}}, $$ where $X^\ast$ is the ground-truth tensor, and $Z$ is the noise tensor. We propose a simple variant of the higher-order tensor SVD estimator $\widetilde{X}$. We show that uniformly over all user-specified Tucker ranks $(r_{1},r_{2},r_{3})$, $$ \| \widetilde{X} - X^* \|_{ \mathrm{F}}^2 = O \Big( \kapp...

ID: 2509.17382v1 stat.ML, cs.LG, math.ST, stat.ME, stat.TH

arXiv PDF

📄 What is a good matching of probability measures? A counterfactual lens on transport maps

2025-09-23

Авторы:

Lucas De Lara, Luca Ganassali

## Контекст Область исследования **статистики** и **машинного обучения** широко использует понятие **связывания вероятностных мер**. Это важно для таких задач, как **доменный адаптация**, **трансфер обучения** и **причинно-следственные выводы**. Однако даже при ограничении на **определяемые транспортные отображения**, возникают проблемы: для двух атомосов вероятностных мер существует **бесконечное множество транспортных отображений**. Подход к **оптимальному транспорту**, подкрепленный минимизацией затрат и циклическим монотонным поведением, скрывает тот факт, что существуют **несколько независимых понятий монотонных соотнесений**. Мы предлагаем анализировать эти подходы и их **структурные свойства**. Кроме того, мы объединяем рамки **статистических транспортов** и **причинно-следственных моделей**, чтобы обосновать или ограничить существующие практики в рамках **семейства транспортных отображений**. ## Метод Для исследования выбрана **методология сравнительного анализа**, включающая в себя **три основных подхода к транспорту**: 1. **Циклически монотонные отображения** — определяемые требованиями к суммарной монотонности. 2. **Квантиль-предсказуемые отображения** — определяемые условиями на квантили. 3. **Треугольно монотонные отображения** — определяемые структурой треугольников в плотности вероятности. Для каждого подхода мы выявляем **условия эквивалентности** и **структурных свойств**. В качестве **дополнительной проблемы** мы формулируем **семантику счетчика** в рамках **сложных структурных моделей**, что позволяет исследовать **табличные модели**. Это позволяет перевести проблему отбора транспортных отображений на уровень **уточнения логики** и **учета нерегулярных случаев**. ## Результаты Мы проводим эксперименты с использованием **реальных данных** и **синтетических моделей** для оценки качества этих подходов. Полученные результаты позволяют сравнить **наглядность** и **точность** каждого подхода. Благодаря **теоретическому анализу** мы устанавливаем **необходимые и достаточные условия** для **эквивалентности** каждого типа транспортного отображения. Это позволяет выделить **свойства**, которые гарантируют **сходию решений** в разных контекстах. ## Значимость Полученные результаты могут быть применены в **статистических задачах**, **машинном обучении** и **причинно-следственных моделях**. Основные **преимущества** включают: 1. **Уточнение логики причинно-следственных моделей**. 2. **Эстимация транспортных отображений** с учетом **нерегулярных случаев**. 3. **Объединение статист

Annotation:

Coupling probability measures lies at the core of many problems in statistics and machine learning, from domain adaptation to transfer learning and causal inference. Yet, even when restricted to deterministic transports, such couplings are not identifiable: two atomless marginals admit infinitely many transport maps. The common recourse to optimal transport, motivated by cost minimization and cyclical monotonicity, obscures the fact that several distinct notions of multivariate monotone matching...

ID: 2509.16027v1 stat.ML, cs.LG, math.ST, stat.ME, stat.TH

arXiv PDF

📄 kNNSampler: Stochastic Imputations for Recovering Missing Value Distributions

2025-09-12

Авторы:

Parastoo Pashmchi, Jerome Benoit, Motonobu Kanagawa

## Контекст Отсутствие данных в незавершенных или урезанных решеток является одной из наиболее распространенных проблем в обработке данных. Эти пропуски могут привести к значительной потере точности в моделировании и анализе. Одним из популярных подходов к решению этой проблемы является метод множественного восстановления, но он часто затруднен сложностью вычислений и неопределенностью в оценке потерянных значений. Поэтому, необходимо разработать более эффективный и универсальный метод, который бы способствовал восстановлению отсутствующих значений, оценивал их неопределенность и мог быть применен в различных областях. ## Метод метод kNNSampler предластовает способ восстановления отсутствующих значений с помощью стохастического имипутационного метода. Метод использует $k$-ближайших соседей (k-NN) для выбора единиц с наиболее похожими наблюдаемыми признаками. Затем, для каждого отсутствующего значения, он проводит стохастическую импутацию, отсылая к распределению значений того же признака у соседей. На основе этого, kNNSampler может оценивать не только отсутствующие значения, но и их неопределенность. Этот подход легко реализуется и может быть использован для множественного восстановления, что делает его эффективным и универсальным. ## Результаты Для исследования эффективности метода были проведены эксперименты на различных датасетах с разным процентом отсутствующих значений. Эксперименты показали, что kNNSampler демонстрирует высокую точность в восстановлении отсутствующих значений в сравнении с другими методами, такими как kNNImputer. Он также удачно оценивает неопределенность восстановленных значений, что делает его подход необходимым для множественного восстановления. Результаты этих экспериментов подтверждают, что kNNSampler может быть применен в различных ситуациях, где требуется восстановление отсутствующих значений. ## Значимость Качество восстановления отсутствующих значений является критическим для многих областей, включая машинное обучение, анализ данных, инженерию и даже медицину. Метод kNNSampler может быть использован в этих областях для улучшения точности моделей и анализа. Он также обладает преимуществами перед другими методами, такими как более точное оценивание неопределенности, что делает его более надежным. Это может привести к улучшению качества решений в различных приложениях. ## Выводы Метод kNNSampler предлагает эффективный и универсальный подход к восстановлению отсутствующих значений в данных. Он не только восстанавливает отсутствующие значения, но и оценивает их неопреде

Annotation:

We study a missing-value imputation method, termed kNNSampler, that imputes a given unit's missing response by randomly sampling from the observed responses of the $k$ most similar units to the given unit in terms of the observed covariates. This method can sample unknown missing values from their distributions, quantify the uncertainties of missing values, and be readily used for multiple imputation. Unlike popular kNNImputer, which estimates the conditional mean of a missing response given an ...

ID: 2509.08366v1 stat.ML, cs.LG, math.ST, stat.ME, stat.TH

arXiv PDF

Показано 1 - 10 из 14 записей