Comparing Generative Models with the New Physics Learning Machine

2508.02275v1 stat.ML, cs.LG, hep-ex, hep-ph 2025-08-09
Авторы:

Samuele Grossi, Marco Letizia, Riccardo Torre

Резюме на русском

## Контекст Область применения генерирующих моделей в научных исследованиях растет быстро, однако оценивать их качество и точность остается сложной задачей. Эта проблема значительно усложняется в больших и высокомерных данных, где стандартные статистические методы ограничены. На первый взгляд, машинное обучение может предложить эффективные решения, но необходимо понять, насколько эти методы эффективны и какие особенности они имеют. В этом контексте проводится сравнение новой предложенной методики, New Physics Learning Machine (NPLM), с другими подходами для решения задачи двухвыборочного теста равенства распределений. Эта методика была предложена в работе по высокоэнергетической физике и предназначена для классификации двух выборок. Целью данного исследования является оценка эффективности NPLM в сравнении с другими методами, а также выявление того, какие методы лучше подходят для различных задач. ## Метод Для сравнения использовались различные методы двухвыборочного теста равенства распределений. Эти методы включают традиционные статистические подходы, а также машинное обучение. Основной метод для сравнения — NPLM — основывается на классификации двух выборок. Реализация проводилась с использованием нейронных сетей с плотным слоем и слоем связи, которые позволяют выделять признаки из данных. Для обучения использовалась архитектура с потерями, чтобы максимизировать вероятность того, что два выборка относятся к одному распределению. Кроме того, были использованы методы типа U-statistics и тесты Манна-Уитни, чтобы добиться хорошего сравнения. Это позволило анализировать как универсальные, так и специфические для конкретных задач подходы. Таким образом, в работе представлен комплексный подход с различными методами для получения наиболее точных результатов. ## Результаты В ходе экспериментов проводились сравнения NPLM с другими методами на различных выборках, в том числе с высокой размерностью. Обнаружено, что NPLM демонстрирует высокую эффективность в тех случаях, когда данные являются высокомерными, но имеют сильную структуру. Однако, когда данные низкой размерности, NPLM показывает слабую отдачу. Также были измерены различные показатели, такие как расхождение Колмогорова и скорость сходимости. Эти результаты позволяют сделать вывод, что NPLM лучше подходит для работы с высокомерными данными, где есть явные структурные отличия. В то же время, другие методы, такие как U-statistics и тесты Манна-Уитни, демонстрируют лучшую точность в низкомерных задачах. ## Значимость Полученные результаты показывают, что NPLM может быть эффективно использо

Abstract

The rise of generative models for scientific research calls for the development of new methods to evaluate their fidelity. A natural framework for addressing this problem is two-sample hypothesis testing, namely the task of determining whether two data sets are drawn from the same distribution. In large-scale and high-dimensional regimes, machine learning offers a set of tools to push beyond the limitations of standard statistical techniques. In this work, we put this claim to the test by comparing a recent proposal from the high-energy physics literature, the New Physics Learning Machine, to perform a classification-based two-sample test against a number of alternative approaches, following the framework presented in Grossi et al. (2025). We highlight the efficiency tradeoffs of the method and the computational costs that come from adopting learning-based approaches. Finally, we discuss the advantages of the different methods for different use cases.

Ссылки и действия