Comparing Generative Models with the New Physics Learning Machine
2508.02275v1
stat.ML, cs.LG, hep-ex, hep-ph
2025-08-09
Авторы:
Samuele Grossi, Marco Letizia, Riccardo Torre
Резюме на русском
## Контекст
Область применения генерирующих моделей в научных исследованиях растет быстро, однако оценивать их качество и точность остается сложной задачей. Эта проблема значительно усложняется в больших и высокомерных данных, где стандартные статистические методы ограничены. На первый взгляд, машинное обучение может предложить эффективные решения, но необходимо понять, насколько эти методы эффективны и какие особенности они имеют.
В этом контексте проводится сравнение новой предложенной методики, New Physics Learning Machine (NPLM), с другими подходами для решения задачи двухвыборочного теста равенства распределений. Эта методика была предложена в работе по высокоэнергетической физике и предназначена для классификации двух выборок. Целью данного исследования является оценка эффективности NPLM в сравнении с другими методами, а также выявление того, какие методы лучше подходят для различных задач.
## Метод
Для сравнения использовались различные методы двухвыборочного теста равенства распределений. Эти методы включают традиционные статистические подходы, а также машинное обучение. Основной метод для сравнения — NPLM — основывается на классификации двух выборок. Реализация проводилась с использованием нейронных сетей с плотным слоем и слоем связи, которые позволяют выделять признаки из данных. Для обучения использовалась архитектура с потерями, чтобы максимизировать вероятность того, что два выборка относятся к одному распределению.
Кроме того, были использованы методы типа U-statistics и тесты Манна-Уитни, чтобы добиться хорошего сравнения. Это позволило анализировать как универсальные, так и специфические для конкретных задач подходы. Таким образом, в работе представлен комплексный подход с различными методами для получения наиболее точных результатов.
## Результаты
В ходе экспериментов проводились сравнения NPLM с другими методами на различных выборках, в том числе с высокой размерностью. Обнаружено, что NPLM демонстрирует высокую эффективность в тех случаях, когда данные являются высокомерными, но имеют сильную структуру. Однако, когда данные низкой размерности, NPLM показывает слабую отдачу.
Также были измерены различные показатели, такие как расхождение Колмогорова и скорость сходимости. Эти результаты позволяют сделать вывод, что NPLM лучше подходит для работы с высокомерными данными, где есть явные структурные отличия. В то же время, другие методы, такие как U-statistics и тесты Манна-Уитни, демонстрируют лучшую точность в низкомерных задачах.
## Значимость
Полученные результаты показывают, что NPLM может быть эффективно использо
Abstract
The rise of generative models for scientific research calls for the
development of new methods to evaluate their fidelity. A natural framework for
addressing this problem is two-sample hypothesis testing, namely the task of
determining whether two data sets are drawn from the same distribution. In
large-scale and high-dimensional regimes, machine learning offers a set of
tools to push beyond the limitations of standard statistical techniques. In
this work, we put this claim to the test by comparing a recent proposal from
the high-energy physics literature, the New Physics Learning Machine, to
perform a classification-based two-sample test against a number of alternative
approaches, following the framework presented in Grossi et al. (2025). We
highlight the efficiency tradeoffs of the method and the computational costs
that come from adopting learning-based approaches. Finally, we discuss the
advantages of the different methods for different use cases.