The Morgan-Pitman Test of Equality of Variances and its Application to Machine Learning Model Evaluation and Selection

2509.12185v1 stat.ML, cs.LG, math.ST, stat.TH 2025-09-17
Авторы:

Argimiro Arratia, Alejandra Cabaña, Ernesto Mordecki, Gerard Rovira-Parra

Резюме на русском

## Контекст Моделирование и анализ в нейронных сетях чрезвычайно важны для выбора моделей и оценки их качества. Одна из ключевых проблем в этой области заключается в том, что существующие подходы часто ориентированы на метрики производительности, не учитывая статистические тесты, которые могут учитывать вариативность выборок. Это ограничивает возможность точно оценивать различия между моделями. Таким образом, в подавляющем большинстве случаев невозможно корректно определить, какая модель лучше, так как статистические тесты не применяются к анализу значимости различных моделей. Наша цель заключается в том, чтобы разработать новый подход, который бы позволил учитывать данные с тяжелыми хвостовыми распределениями или выбросами, чтобы улучшить статистические оценки и повысить достоверность моделирования. ## Метод Мы предлагаем использовать новый подход к оценке и сравнению моделей, который основывается на тесте Моргана-Питмана для сравнения дисперсий. Метод включает в себя несколько усовершенствований, таких как возможность учитывать методы машинного обучения, которые порождают выборки с тяжелыми хвостовыми распределениями. Кроме того, решение включает в себя стратегию для уменьшения корреляции между остатками модели, что позволяет улучшить статистическую значимость. Также мы используем техники для генерирования новых данных, которые адаптируются к данным с выбросами, что помогает лучше адаптировать модели к реальным возможным ошибкам. Эта архитектура позволяет более точно оценивать модели с учетом их статистического поведения. ## Результаты Мы провели ряд экспериментов, в которых сравнивали различные модели с разными метриками. Затем мы применяли наш новый подход для оценки вариативности остатков моделей. Данные, использованные в экспериментах, включали как синтетические данные, так и реальные данные в различных областях. Результаты показали, что наш подход дает более достоверные результаты по сравнению с существующими подходами. Так, например, мы увидели, что в моделях с высокой дисперсией новый подход дает значительно более точные оценки, чем статистические тесты, использованные ранее. Эти результаты подтверждают эффективность нового подхода в различных ситуациях, включая ситуации с выбросами и тяжелыми хвостовыми распределениями. ## Значимость Наш подход может быть применен в различных областях, включая финансы, биоинформатику, а также в системы моделирования в машинном обучении. Он предлагает значительные преимущества по сравнению с существующими подходами, такими как улучшенная точность оценки моделей, бо

Abstract

Model selection in non-linear models often prioritizes performance metrics over statistical tests, limiting the ability to account for sampling variability. We propose the use of a statistical test to assess the equality of variances in forecasting errors. The test builds upon the classic Morgan-Pitman approach, incorporating enhancements to ensure robustness against data with heavy-tailed distributions or outliers with high variance, plus a strategy to make residuals from machine learning models statistically independent. Through a series of simulations and real-world data applications, we demonstrate the test's effectiveness and practical utility, offering a reliable tool for model evaluation and selection in diverse contexts.

Ссылки и действия