Likelihood Ratio Tests by Kernel Gaussian Embedding
2508.07982v1
stat.ML, cs.LG, stat.ME, 62G10, 62G20, 62H15, 62H20, 60G15, 46E22
2025-08-13
Авторы:
Leonardo V. Santoro, Victor M. Panaretos
Резюме на русском
## Контекст
Исследование альтернативных методов тестирования двух выборок является ключевым вопросом в теории вероятности и статистике. Существующие подходы часто ограничиваются гипотезами о распределении или требуют выбора априорных параметров. Это приводит к ограниченной общности и способности распознавать сильно различающиеся выборки. Необходимость развития более гибких и непараметрических подходов возникает в статистических приложениях, где присутствуют слабые сигналы и высокие размерности. Наша мотивация заключается в развитии метода, который объединяет классические подходы с новыми идеями о классификации гипотез при помощи ядерных техник.
## Метод
Мы предлагаем новый ядерный подход к двухвыборочному тестированию, основанный на подходе, использующем обобщенные ядерные приближения для вероятностных мер. Ключевой идеей является использование связи между ядерными обобщениями матриц ковариаций и двумерных гауссовых пространств. На основе этой связи мы формулируем тестирующую статистику, основанную на относительном энтропии между гауссовыми приближениями. Это позволяет тестировать не только равенство распределений, но и их неравенство. Чтобы сделать метод применимым в практических ситуациях, мы предлагаем регуляризованную версию, которая балансируется с помощью пермутаций. Это обеспечивает корректную оценку в условиях ограниченных данных.
## Результаты
Мы проверили наш подход на синтетических и реальных данных. Наблюдается значительное улучшение в сравнении с текущими стандартными методами, особенно в ситуациях, когда данные имеют высокую размерность и слабые сигналы. Эксперименты показали, что наш подход обнаруживает различия выборок эффективнее большинства современных алгоритмов. Наши результаты показывают, что ядерная техника дает более точное определение различий между выборками и может эффективно применяться в сложных статистических задачах.
## Значимость
Предлагаемый подход может быть применен в различных областях, включая генетическое исследование, искусственный интеллект и моделирование финансовых процессов. Он объединяет многие преимущества ранее разработанных методов, в то же время усиливает свою силу в обнаружении неравенств между распределениями выборок. Наш подход имеет потенциал для улучшения точности и доступности методов в поиске различий в выборках, что может существенно повлиять на развитие статистических приложений в науке и технологиях.
## Выводы
Мы сформулировали новый тест для двух выборок на основе ядерных приближений. Наш под
Abstract
We propose a novel kernel-based nonparametric two-sample test, employing the
combined use of kernel mean and kernel covariance embedding. Our test builds on
recent results showing how such combined embeddings map distinct probability
measures to mutually singular Gaussian measures on the kernel's RKHS.
Leveraging this result, we construct a test statistic based on the relative
entropy between the Gaussian embeddings, i.e.\ the likelihood ratio. The
likelihood ratio is specifically tailored to detect equality versus singularity
of two Gaussians, and satisfies a ``$0/\infty$" law, in that it vanishes under
the null and diverges under the alternative. To implement the test in finite
samples, we introduce a regularised version, calibrated by way of permutation.
We prove consistency, establish uniform power guarantees under mild conditions,
and discuss how our framework unifies and extends prior approaches based on
spectrally regularized MMD. Empirical results on synthetic and real data
demonstrate remarkable gains in power compared to state-of-the-art methods,
particularly in high-dimensional and weak-signal regimes.