📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Learning to Validate Generative Models: a Goodness-of-Fit Approach

2025-11-15

Авторы:

Pietro Cappelli, Gaia Grosso, Marco Letizia, Humberto Reyes-González, Marco Zanetti

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Generative models are increasingly central to scientific workflows, yet their systematic use and interpretation require a proper understanding of their limitations through rigorous validation. Classic approaches struggle with scalability, statistical power, or interpretability when applied to high-dimensional data, making it difficult to certify the reliability of these models in realistic, high-dimensional scientific settings. Here, we propose the use of the New Physics Learning Machine (NPLM),...

ID: 2511.09118v1 stat.ML, cs.LG, hep-ex, hep-ph

arXiv PDF

📄 Comparing Generative Models with the New Physics Learning Machine

2025-08-09

Авторы:

Samuele Grossi, Marco Letizia, Riccardo Torre

## Контекст Область применения генерирующих моделей в научных исследованиях растет быстро, однако оценивать их качество и точность остается сложной задачей. Эта проблема значительно усложняется в больших и высокомерных данных, где стандартные статистические методы ограничены. На первый взгляд, машинное обучение может предложить эффективные решения, но необходимо понять, насколько эти методы эффективны и какие особенности они имеют. В этом контексте проводится сравнение новой предложенной методики, New Physics Learning Machine (NPLM), с другими подходами для решения задачи двухвыборочного теста равенства распределений. Эта методика была предложена в работе по высокоэнергетической физике и предназначена для классификации двух выборок. Целью данного исследования является оценка эффективности NPLM в сравнении с другими методами, а также выявление того, какие методы лучше подходят для различных задач. ## Метод Для сравнения использовались различные методы двухвыборочного теста равенства распределений. Эти методы включают традиционные статистические подходы, а также машинное обучение. Основной метод для сравнения — NPLM — основывается на классификации двух выборок. Реализация проводилась с использованием нейронных сетей с плотным слоем и слоем связи, которые позволяют выделять признаки из данных. Для обучения использовалась архитектура с потерями, чтобы максимизировать вероятность того, что два выборка относятся к одному распределению. Кроме того, были использованы методы типа U-statistics и тесты Манна-Уитни, чтобы добиться хорошего сравнения. Это позволило анализировать как универсальные, так и специфические для конкретных задач подходы. Таким образом, в работе представлен комплексный подход с различными методами для получения наиболее точных результатов. ## Результаты В ходе экспериментов проводились сравнения NPLM с другими методами на различных выборках, в том числе с высокой размерностью. Обнаружено, что NPLM демонстрирует высокую эффективность в тех случаях, когда данные являются высокомерными, но имеют сильную структуру. Однако, когда данные низкой размерности, NPLM показывает слабую отдачу. Также были измерены различные показатели, такие как расхождение Колмогорова и скорость сходимости. Эти результаты позволяют сделать вывод, что NPLM лучше подходит для работы с высокомерными данными, где есть явные структурные отличия. В то же время, другие методы, такие как U-statistics и тесты Манна-Уитни, демонстрируют лучшую точность в низкомерных задачах. ## Значимость Полученные результаты показывают, что NPLM может быть эффективно использо

Annotation:

The rise of generative models for scientific research calls for the development of new methods to evaluate their fidelity. A natural framework for addressing this problem is two-sample hypothesis testing, namely the task of determining whether two data sets are drawn from the same distribution. In large-scale and high-dimensional regimes, machine learning offers a set of tools to push beyond the limitations of standard statistical techniques. In this work, we put this claim to the test by compar...

ID: 2508.02275v1 stat.ML, cs.LG, hep-ex, hep-ph

arXiv PDF