kNNSampler: Stochastic Imputations for Recovering Missing Value Distributions
2509.08366v1
stat.ML, cs.LG, math.ST, stat.ME, stat.TH
2025-09-12
Авторы:
Parastoo Pashmchi, Jerome Benoit, Motonobu Kanagawa
Резюме на русском
## Контекст
Отсутствие данных в незавершенных или урезанных решеток является одной из наиболее распространенных проблем в обработке данных. Эти пропуски могут привести к значительной потере точности в моделировании и анализе. Одним из популярных подходов к решению этой проблемы является метод множественного восстановления, но он часто затруднен сложностью вычислений и неопределенностью в оценке потерянных значений. Поэтому, необходимо разработать более эффективный и универсальный метод, который бы способствовал восстановлению отсутствующих значений, оценивал их неопределенность и мог быть применен в различных областях.
## Метод
метод kNNSampler предластовает способ восстановления отсутствующих значений с помощью стохастического имипутационного метода. Метод использует $k$-ближайших соседей (k-NN) для выбора единиц с наиболее похожими наблюдаемыми признаками. Затем, для каждого отсутствующего значения, он проводит стохастическую импутацию, отсылая к распределению значений того же признака у соседей. На основе этого, kNNSampler может оценивать не только отсутствующие значения, но и их неопределенность. Этот подход легко реализуется и может быть использован для множественного восстановления, что делает его эффективным и универсальным.
## Результаты
Для исследования эффективности метода были проведены эксперименты на различных датасетах с разным процентом отсутствующих значений. Эксперименты показали, что kNNSampler демонстрирует высокую точность в восстановлении отсутствующих значений в сравнении с другими методами, такими как kNNImputer. Он также удачно оценивает неопределенность восстановленных значений, что делает его подход необходимым для множественного восстановления. Результаты этих экспериментов подтверждают, что kNNSampler может быть применен в различных ситуациях, где требуется восстановление отсутствующих значений.
## Значимость
Качество восстановления отсутствующих значений является критическим для многих областей, включая машинное обучение, анализ данных, инженерию и даже медицину. Метод kNNSampler может быть использован в этих областях для улучшения точности моделей и анализа. Он также обладает преимуществами перед другими методами, такими как более точное оценивание неопределенности, что делает его более надежным. Это может привести к улучшению качества решений в различных приложениях.
## Выводы
Метод kNNSampler предлагает эффективный и универсальный подход к восстановлению отсутствующих значений в данных. Он не только восстанавливает отсутствующие значения, но и оценивает их неопреде
Abstract
We study a missing-value imputation method, termed kNNSampler, that imputes a
given unit's missing response by randomly sampling from the observed responses
of the $k$ most similar units to the given unit in terms of the observed
covariates. This method can sample unknown missing values from their
distributions, quantify the uncertainties of missing values, and be readily
used for multiple imputation. Unlike popular kNNImputer, which estimates the
conditional mean of a missing response given an observed covariate, kNNSampler
is theoretically shown to estimate the conditional distribution of a missing
response given an observed covariate. Experiments demonstrate its effectiveness
in recovering the distribution of missing values. The code for kNNSampler is
made publicly available (https://github.com/SAP/knn-sampler).