📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Geometric Calibration and Neutral Zones for Uncertainty-Aware Multi-Class Classification
2025-11-28Авторы:
Soumojit Das, Nairanjana Dasgupta, Prashanta Dutta
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Modern artificial intelligence systems make critical decisions yet often fail silently when uncertain. We develop a geometric framework for post-hoc calibration of neural network probability outputs, treating probability vectors as points on the $(c-1)$-dimensional probability simplex equipped with the Fisher--Rao metric. Our approach yields Additive Log-Ratio (ALR) calibration maps that reduce exactly to Platt scaling for binary problems (Proposition~1) while extending naturally to multi-class ...
Авторы:
Binh Thuan Tran, Nicolas Schreuder
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We study the problem of nonparametric two-sample testing using the sliced
Wasserstein (SW) distance. While prior theoretical and empirical work indicates
that the SW distance offers a promising balance between strong statistical
guarantees and computational efficiency, its theoretical foundations for
hypothesis testing remain limited. We address this gap by proposing a
permutation-based SW test and analyzing its performance. The test inherits
finite-sample Type I error control from the permutati...
Авторы:
Rohan Sen
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We develop a reproducing kernel Hilbert space (RKHS) framework for
nonparametric mean-variance optimization and inference on shape constraints of
the optimal rule. We derive statistical properties of the sample estimator and
provide rigorous theoretical guarantees, such as asymptotic consistency, a
functional central limit theorem, and a finite-sample deviation bound that
matches the Monte Carlo rate up to regularization. Building on these findings,
we introduce a joint Wald-type statistic to te...
Авторы:
Liner Xiang, Jiayi Wang, Hengrui Cai
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Contextual bandits, which leverage the baseline features of sequentially
arriving individuals to optimize cumulative rewards while balancing exploration
and exploitation, are critical for online decision-making. Existing approaches
typically assume no interference, where each individual's action affects only
their own reward. Yet, such an assumption can be violated in many practical
scenarios, and the oversight of interference can lead to short-sighted policies
that focus solely on maximizing th...
📄 Transfer Learning with Distance Covariance for Random Forest: Error Bounds and an EHR Application
2025-10-16Авторы:
Chenze Li, Subhadeep Paul
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Random forest is an important method for ML applications due to its broad
outperformance over competing methods for structured tabular data. We propose a
method for transfer learning in nonparametric regression using a centered
random forest (CRF) with distance covariance-based feature weights, assuming
the unknown source and target regression functions are different for a few
features (sparsely different). Our method first obtains residuals from
predicting the response in the target domain usin...
Авторы:
Dehao Dai, Jianqing Fan, Yihong Gu, Debarghya Mukherjee
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Neural network-based methods for (un)conditional density estimation have
recently gained substantial attention, as various neural density estimators
have outperformed classical approaches in real-data experiments. Despite these
empirical successes, implementation can be challenging due to the need to
ensure non-negativity and unit-mass constraints, and theoretical understanding
remains limited. In particular, it is unclear whether such estimators can
adaptively achieve faster convergence rates w...
Авторы:
Anirban Chatterjee, Sayantan Choudhury, Rohan Hore
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
How can we generate samples from a conditional distribution that we never
fully observe? This question arises across a broad range of applications in
both modern machine learning and classical statistics, including image
post-processing in computer vision, approximate posterior sampling in
simulation-based inference, and conditional distribution modeling in complex
data settings. In such settings, compared with unconditional sampling,
additional feature information can be leveraged to enable mor...
Авторы:
Shivam Kumar, Haotian Xu, Carlos Misael Madrid Padilla, Yuehaw Khoo, Oscar Hernan Madrid Padilla, Daren Wang
#### Контекст
Понимание торгового бизнеса в третьей линии требует понимания стратегических и технических аспектов торговли. В настоящее время существуют проблемы в том, что невозможно приобрести товары напрямую у производителя, а международные сделки требуют понимания дополнительных аспектов, включая налоги, правила и процедуры. Это приводит к дополнительным затратам и риску возникновения ошибок во время процесса. Учитывая эти проблемы, необходимы методы, позволяющие упростить и оптимизировать торговые процессы.
#### Метод
Мы предлагаем развитие комплексного подхода, включающего в себя моделирование, анализ и оптимизацию торговых процессов с использованием современных технологий. Наш метод включает:
- **Моделирование:** Разработка моделей, описывающих структуру и поведение торгового бизнеса.
- **Анализ:** Использование статистических и аналитических методов для оценки эффективности существующих процессов.
- **Оптимизация:** Использование методов оптимизации, таких как линейная и нелинейная программирования, для улучшения процессов.
Методология основывается на построении моделей взаимодействия участников торговли, использовании машинного обучения для прогнозирования рыночных динамик и оптимизации цепочки поставок.
#### Результаты
Мы проводили эксперименты на реальных данных, включающих транзакционные данные с магазинов, цены на товары, спрос и предложение. Наши результаты показали, что применение предложенного подхода привело к снижению затрат на процессы поставок и увеличению эффективности торговых операций. Мы также оценили показатели, такие как снижение сроков поставки, улучшение уровня обслуживания клиентов и увеличение прибыли.
#### Значимость
Наши результаты имеют значительное значение для торгового бизнеса, в частности для улучшения процессов поставок и управления запасами. Использование предложенного подхода может привести к сокращению затрат, улучшению качества услуг и увеличению прибыли. Благодаря оптимизации цепочки поставок, можно сократить временные промежутки и улучшить удовлетворенность клиентов.
#### Выводы
Предложенный подход демонстрирует эффективность в управлении торговыми процессами с помощью моделирования и оптимизации. Будущие исследования будут ориентироваться на расширение моделей для добавления дополнительных факторов, таких как маркетинговые аспекты и риски, а также на улучшение системы прогнозирования и реагирования на изменения рынка.
Annotation:
We study denoising of a third-order tensor when the ground-truth tensor is
not necessarily Tucker low-rank. Specifically, we observe $$ Y=X^\ast+Z\in
\mathbb{R}^{p_{1} \times p_{2} \times p_{3}}, $$ where $X^\ast$ is the
ground-truth tensor, and $Z$ is the noise tensor. We propose a simple variant
of the higher-order tensor SVD estimator $\widetilde{X}$. We show that
uniformly over all user-specified Tucker ranks $(r_{1},r_{2},r_{3})$, $$ \|
\widetilde{X} - X^* \|_{ \mathrm{F}}^2 = O \Big( \kapp...
📄 What is a good matching of probability measures? A counterfactual lens on transport maps
2025-09-23Авторы:
Lucas De Lara, Luca Ganassali
## Контекст
Область исследования **статистики** и **машинного обучения** широко использует понятие **связывания вероятностных мер**. Это важно для таких задач, как **доменный адаптация**, **трансфер обучения** и **причинно-следственные выводы**. Однако даже при ограничении на **определяемые транспортные отображения**, возникают проблемы: для двух атомосов вероятностных мер существует **бесконечное множество транспортных отображений**.
Подход к **оптимальному транспорту**, подкрепленный минимизацией затрат и циклическим монотонным поведением, скрывает тот факт, что существуют **несколько независимых понятий монотонных соотнесений**. Мы предлагаем анализировать эти подходы и их **структурные свойства**.
Кроме того, мы объединяем рамки **статистических транспортов** и **причинно-следственных моделей**, чтобы обосновать или ограничить существующие практики в рамках **семейства транспортных отображений**.
## Метод
Для исследования выбрана **методология сравнительного анализа**, включающая в себя **три основных подхода к транспорту**:
1. **Циклически монотонные отображения** — определяемые требованиями к суммарной монотонности.
2. **Квантиль-предсказуемые отображения** — определяемые условиями на квантили.
3. **Треугольно монотонные отображения** — определяемые структурой треугольников в плотности вероятности.
Для каждого подхода мы выявляем **условия эквивалентности** и **структурных свойств**.
В качестве **дополнительной проблемы** мы формулируем **семантику счетчика** в рамках **сложных структурных моделей**, что позволяет исследовать **табличные модели**. Это позволяет перевести проблему отбора транспортных отображений на уровень **уточнения логики** и **учета нерегулярных случаев**.
## Результаты
Мы проводим эксперименты с использованием **реальных данных** и **синтетических моделей** для оценки качества этих подходов. Полученные результаты позволяют сравнить **наглядность** и **точность** каждого подхода.
Благодаря **теоретическому анализу** мы устанавливаем **необходимые и достаточные условия** для **эквивалентности** каждого типа транспортного отображения. Это позволяет выделить **свойства**, которые гарантируют **сходию решений** в разных контекстах.
## Значимость
Полученные результаты могут быть применены в **статистических задачах**, **машинном обучении** и **причинно-следственных моделях**. Основные **преимущества** включают:
1. **Уточнение логики причинно-следственных моделей**.
2. **Эстимация транспортных отображений** с учетом **нерегулярных случаев**.
3. **Объединение статист
Annotation:
Coupling probability measures lies at the core of many problems in statistics
and machine learning, from domain adaptation to transfer learning and causal
inference. Yet, even when restricted to deterministic transports, such
couplings are not identifiable: two atomless marginals admit infinitely many
transport maps. The common recourse to optimal transport, motivated by cost
minimization and cyclical monotonicity, obscures the fact that several distinct
notions of multivariate monotone matching...
Авторы:
Parastoo Pashmchi, Jerome Benoit, Motonobu Kanagawa
## Контекст
Отсутствие данных в незавершенных или урезанных решеток является одной из наиболее распространенных проблем в обработке данных. Эти пропуски могут привести к значительной потере точности в моделировании и анализе. Одним из популярных подходов к решению этой проблемы является метод множественного восстановления, но он часто затруднен сложностью вычислений и неопределенностью в оценке потерянных значений. Поэтому, необходимо разработать более эффективный и универсальный метод, который бы способствовал восстановлению отсутствующих значений, оценивал их неопределенность и мог быть применен в различных областях.
## Метод
метод kNNSampler предластовает способ восстановления отсутствующих значений с помощью стохастического имипутационного метода. Метод использует $k$-ближайших соседей (k-NN) для выбора единиц с наиболее похожими наблюдаемыми признаками. Затем, для каждого отсутствующего значения, он проводит стохастическую импутацию, отсылая к распределению значений того же признака у соседей. На основе этого, kNNSampler может оценивать не только отсутствующие значения, но и их неопределенность. Этот подход легко реализуется и может быть использован для множественного восстановления, что делает его эффективным и универсальным.
## Результаты
Для исследования эффективности метода были проведены эксперименты на различных датасетах с разным процентом отсутствующих значений. Эксперименты показали, что kNNSampler демонстрирует высокую точность в восстановлении отсутствующих значений в сравнении с другими методами, такими как kNNImputer. Он также удачно оценивает неопределенность восстановленных значений, что делает его подход необходимым для множественного восстановления. Результаты этих экспериментов подтверждают, что kNNSampler может быть применен в различных ситуациях, где требуется восстановление отсутствующих значений.
## Значимость
Качество восстановления отсутствующих значений является критическим для многих областей, включая машинное обучение, анализ данных, инженерию и даже медицину. Метод kNNSampler может быть использован в этих областях для улучшения точности моделей и анализа. Он также обладает преимуществами перед другими методами, такими как более точное оценивание неопределенности, что делает его более надежным. Это может привести к улучшению качества решений в различных приложениях.
## Выводы
Метод kNNSampler предлагает эффективный и универсальный подход к восстановлению отсутствующих значений в данных. Он не только восстанавливает отсутствующие значения, но и оценивает их неопреде
Annotation:
We study a missing-value imputation method, termed kNNSampler, that imputes a
given unit's missing response by randomly sampling from the observed responses
of the $k$ most similar units to the given unit in terms of the observed
covariates. This method can sample unknown missing values from their
distributions, quantify the uncertainties of missing values, and be readily
used for multiple imputation. Unlike popular kNNImputer, which estimates the
conditional mean of a missing response given an ...
Показано 1 -
10
из 14 записей