Dimension Agnostic Testing of Survey Data Credibility through the Lens of Regression

2508.20616v1 cs.LG, stat.ML 2025-08-29
Авторы:

Debabrota Basu, Sourav Chakraborty, Debarshi Chanda, Buddha Dev Das, Arijit Ghosh, Arnab Ray

Резюме на русском

## Контекст Оценка достоверности выборочного опроса в представлении общности является ключевым для гарантии верности последующих исследований. Эта проблема часто сводится к оценке расстояния между двумя высокомерновыми распределениями, требующей большого числа выборок, которое растет экспоненциально с увеличением размерности. Однако модель, используемая для анализа данных, может привести к выводам, согласованным с различными методами моделирования. В этой статье предлагается задачно-ориентированный подход для оценки достоверности выборочного опроса, который меньше зависит от модели исследования. ## Метод Авторы предлагают модель-зависимый метрический подход для оценки достоверности. Основной метод заключается в использовании алгоритма для проверки достоверности данных в регрессионных моделях. Этот алгоритм не требует восстановления регрессионной модели и может оценивать достоверность данных независимо от их размерности. Метод основывается на работе с выборочными данными, а не на построении модели. ## Результаты Авторы проводят эксперименты, используя данные из регрессионных моделей. Они демонстрируют, что алгоритм эффективно определяет достоверность данных с помощью задачно-ориентированного подхода, не требующего восстановления модели. Эта эффективность проявляется в своей зависимости от данных, которая не зависит от их размерности. Эксперименты показывают, что алгоритм может быть применен в различных регрессионных моделях с высокой точностью. ## Значимость Предлагаемый подход может быть применен в различных областях, где необходима проверка достоверности данных, например, в экономике, социологии и статистике. Он обеспечивает более точную оценку достоверности данных, не требуя высокой размерности выборок. Это может привести к оптимизации процессов работы с данными в учебных, научных и практических задачах, снижая требования к объему выборочных данных. ## Выводы Авторы показали, что их подход эффективнее, чем традиционные методы, которые требуют восстановления модели. Они также сделали вывод, что дальнейшие исследования могут быть направлены на расширение этого подхода для других задач моделирования и тестирования достоверности данных.

Abstract

Assessing whether a sample survey credibly represents the population is a critical question for ensuring the validity of downstream research. Generally, this problem reduces to estimating the distance between two high-dimensional distributions, which typically requires a number of samples that grows exponentially with the dimension. However, depending on the model used for data analysis, the conclusions drawn from the data may remain consistent across different underlying distributions. In this context, we propose a task-based approach to assess the credibility of sampled surveys. Specifically, we introduce a model-specific distance metric to quantify this notion of credibility. We also design an algorithm to verify the credibility of survey data in the context of regression models. Notably, the sample complexity of our algorithm is independent of the data dimension. This efficiency stems from the fact that the algorithm focuses on verifying the credibility of the survey data rather than reconstructing the underlying regression model. Furthermore, we show that if one attempts to verify credibility by reconstructing the regression model, the sample complexity scales linearly with the dimensionality of the data. We prove the theoretical correctness of our algorithm and numerically demonstrate our algorithm's performance.

Ссылки и действия