kNNSampler: Stochastic Imputations for Recovering Missing Value Distributions

2509.08366v1 stat.ML, cs.LG, math.ST, stat.ME, stat.TH 2025-09-12
Авторы:

Parastoo Pashmchi, Jerome Benoit, Motonobu Kanagawa

Резюме на русском

## Контекст Отсутствие данных в незавершенных или урезанных решеток является одной из наиболее распространенных проблем в обработке данных. Эти пропуски могут привести к значительной потере точности в моделировании и анализе. Одним из популярных подходов к решению этой проблемы является метод множественного восстановления, но он часто затруднен сложностью вычислений и неопределенностью в оценке потерянных значений. Поэтому, необходимо разработать более эффективный и универсальный метод, который бы способствовал восстановлению отсутствующих значений, оценивал их неопределенность и мог быть применен в различных областях. ## Метод метод kNNSampler предластовает способ восстановления отсутствующих значений с помощью стохастического имипутационного метода. Метод использует $k$-ближайших соседей (k-NN) для выбора единиц с наиболее похожими наблюдаемыми признаками. Затем, для каждого отсутствующего значения, он проводит стохастическую импутацию, отсылая к распределению значений того же признака у соседей. На основе этого, kNNSampler может оценивать не только отсутствующие значения, но и их неопределенность. Этот подход легко реализуется и может быть использован для множественного восстановления, что делает его эффективным и универсальным. ## Результаты Для исследования эффективности метода были проведены эксперименты на различных датасетах с разным процентом отсутствующих значений. Эксперименты показали, что kNNSampler демонстрирует высокую точность в восстановлении отсутствующих значений в сравнении с другими методами, такими как kNNImputer. Он также удачно оценивает неопределенность восстановленных значений, что делает его подход необходимым для множественного восстановления. Результаты этих экспериментов подтверждают, что kNNSampler может быть применен в различных ситуациях, где требуется восстановление отсутствующих значений. ## Значимость Качество восстановления отсутствующих значений является критическим для многих областей, включая машинное обучение, анализ данных, инженерию и даже медицину. Метод kNNSampler может быть использован в этих областях для улучшения точности моделей и анализа. Он также обладает преимуществами перед другими методами, такими как более точное оценивание неопределенности, что делает его более надежным. Это может привести к улучшению качества решений в различных приложениях. ## Выводы Метод kNNSampler предлагает эффективный и универсальный подход к восстановлению отсутствующих значений в данных. Он не только восстанавливает отсутствующие значения, но и оценивает их неопреде

Abstract

We study a missing-value imputation method, termed kNNSampler, that imputes a given unit's missing response by randomly sampling from the observed responses of the $k$ most similar units to the given unit in terms of the observed covariates. This method can sample unknown missing values from their distributions, quantify the uncertainties of missing values, and be readily used for multiple imputation. Unlike popular kNNImputer, which estimates the conditional mean of a missing response given an observed covariate, kNNSampler is theoretically shown to estimate the conditional distribution of a missing response given an observed covariate. Experiments demonstrate its effectiveness in recovering the distribution of missing values. The code for kNNSampler is made publicly available (https://github.com/SAP/knn-sampler).

Ссылки и действия

Связанные статьи

Bias-variance Tradeoff in Tensor Estimation

#### Контекст Понимание торгового бизнеса в третьей линии требует понимания стратегических и технических аспектов торгов...

2025-09-24