📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Leonardo V. Santoro, Victor M. Panaretos

## Контекст Исследование альтернативных методов тестирования двух выборок является ключевым вопросом в теории вероятности и статистике. Существующие подходы часто ограничиваются гипотезами о распределении или требуют выбора априорных параметров. Это приводит к ограниченной общности и способности распознавать сильно различающиеся выборки. Необходимость развития более гибких и непараметрических подходов возникает в статистических приложениях, где присутствуют слабые сигналы и высокие размерности. Наша мотивация заключается в развитии метода, который объединяет классические подходы с новыми идеями о классификации гипотез при помощи ядерных техник. ## Метод Мы предлагаем новый ядерный подход к двухвыборочному тестированию, основанный на подходе, использующем обобщенные ядерные приближения для вероятностных мер. Ключевой идеей является использование связи между ядерными обобщениями матриц ковариаций и двумерных гауссовых пространств. На основе этой связи мы формулируем тестирующую статистику, основанную на относительном энтропии между гауссовыми приближениями. Это позволяет тестировать не только равенство распределений, но и их неравенство. Чтобы сделать метод применимым в практических ситуациях, мы предлагаем регуляризованную версию, которая балансируется с помощью пермутаций. Это обеспечивает корректную оценку в условиях ограниченных данных. ## Результаты Мы проверили наш подход на синтетических и реальных данных. Наблюдается значительное улучшение в сравнении с текущими стандартными методами, особенно в ситуациях, когда данные имеют высокую размерность и слабые сигналы. Эксперименты показали, что наш подход обнаруживает различия выборок эффективнее большинства современных алгоритмов. Наши результаты показывают, что ядерная техника дает более точное определение различий между выборками и может эффективно применяться в сложных статистических задачах. ## Значимость Предлагаемый подход может быть применен в различных областях, включая генетическое исследование, искусственный интеллект и моделирование финансовых процессов. Он объединяет многие преимущества ранее разработанных методов, в то же время усиливает свою силу в обнаружении неравенств между распределениями выборок. Наш подход имеет потенциал для улучшения точности и доступности методов в поиске различий в выборках, что может существенно повлиять на развитие статистических приложений в науке и технологиях. ## Выводы Мы сформулировали новый тест для двух выборок на основе ядерных приближений. Наш под
Annotation:
We propose a novel kernel-based nonparametric two-sample test, employing the combined use of kernel mean and kernel covariance embedding. Our test builds on recent results showing how such combined embeddings map distinct probability measures to mutually singular Gaussian measures on the kernel's RKHS. Leveraging this result, we construct a test statistic based on the relative entropy between the Gaussian embeddings, i.e.\ the likelihood ratio. The likelihood ratio is specifically tailored to de...
ID: 2508.07982v1 stat.ML, cs.LG, stat.ME, 62G10, 62G20, 62H15, 62H20, 60G15, 46E22
Авторы:

Benedikt Fröhlich, Alison Durst, Merle Behr

#### Контекст В настоящее время обширно применяются машинные обучения (ML) для решения различных задач, и интерпретация моделей ML становится все более важной. Одним из популярных способов получения понимания модели является анализ вклада признаков (Feature Importance, FI). Распространенной проблемой является то, что FI может оказаться сильно зависим от корреляции между признаками в обучающих данных, что приводит к неточным оценкам. Например, если несколько признаков сильно коррелированы с целевым сигналом, а также со взятой из шума, то шумный признак может получить более высокий вклад в FI, чем любой другой признак. Такая ситуация требует разработки методов, которые позволят улучшить FI, даже в случае высокой корреляции признаков. #### Метод Метод, предложенный в статье, называется Local Sample Weighting (LOSAW). Он локально применяется в машинном обучении для уменьшения корреляции между признаками, когда FI оценивается. LOSAW вдохновлен техникой "inverser Wahrscheinlichkeitsgewichtung" из рамков причинного анализа. Основная идея состоит в том, что в каждой точке обучения модели веса выборок пересчитываются так, чтобы признак, который исследуется, был декоррелирован от остальных признаков. Это улучшает точность оценки FI. Для регулирования количества декорреляции вводится минимальный эффективный размер выборки (Minimum Effective Sample Size, MESS), который позволяет сбалансировать точность и биаз модели. LOSAW может быть интегрирован в различные ML-алгоритмы, включая случайные лесы и сверточные нейронные сети. #### Результаты Авторы провели эксперименты на различных симуляционных данных, показав разные зависимости между признаками. Эксперименты показали, что LOSAW улучшает FI в плохо декоррелированных случаях без существенного ухудшения FI в случаях более декоррелированных данных. Также была проверена эффективность LOSAW в контексте случайных лесов и нейронных сетей, где он повысил качество FI. Было также выявлено, что LOSAW может улучшить точность предсказаний, особенно при работе с данными, не входящими в обучающую выборку (out-of-distribution). #### Значимость Важность LOSAW заключается в том, что он значительно улучшает точность FI в случаях, когда признаки сильно коррелированы. Это полезно для понимания работы многих ML-моделей, в том числе случайных лесов и нейронных сетей. Значительное преимущество LOSAW заключается в том, что он может быть интегрирован в различные ML-алгоритмы без существенных изменений архитектуры. Более того, LOSAW позволяет регулировать точность и биаз модели, используя минимальный эффективный размер выборки, что дает преимущество в управлении торговлей между точностью и простотой. #### Выводы В результате, LOSAW демонстрирует способность улучшать FI в за
Annotation:
Feature importance (FI) statistics provide a prominent and valuable method of insight into the decision process of machine learning (ML) models, but their effectiveness has well-known limitations when correlation is present among the features in the training data. In this case, the FI often tends to be distributed among all features which are in correlation with the response-generating signal features. Even worse, if multiple signal features are in strong correlation with a noise feature, while ...
ID: 2508.06337v1 stat.ML, cs.LG, stat.ME
Показано 41 - 42 из 42 записей