Adapting Vision-Language Models for Neutrino Event Classification in High-Energy Physics

2509.08461v1 cs.LG, cs.AI, cs.CV, hep-ex 2025-09-11

Авторы:

Dikshant Sagar, Kaiwen Yu, Alejandro Yankelevich, Jianming Bian, Pierre Baldi

Резюме на русском

## Контекст В области высокоэнергетической физики (HEP), где изучаются процессы с высоким уровнем энергии, важно не только наблюдать и записывать эти процессы, но и точно классифицировать и интерпретировать взаимодействия частиц. Одна из сложностей в этой области заключается в том, чтобы эффективно использовать данные, полученные с помощью пикселируемых детекторов, которые представляют собой графические матрицы, где каждая "пиксель" соответствует выходу энергии в определенной точке пространства. Традиционными методами классификации являются глубокие нейронные сети, такие как глубокие конволюционные сети (CNN), которые достаточно эффективно работают в этой области. В этом контексте возникает вопрос: могут ли видение-языковые модели (VLMs), развитые в рамках машинного обучения в последние годы, предоставить дополнительные преимущества в классификации таких событий? В частности, в последнее время, большие языковые модели (LLMs) продемонстрировали их способность работать не только с текстовыми данными, но и с другими типами данных, включая изображения и текст. Это привело к развитию видение-языковых моделей (VLMs), которые могут обрабатывать и понимать данные, которые сочетают в себе изображения и текст. Наша цель — определить, могут ли такие модели быть применены для классификации взаимодействий нейтрино в экспериментах высокоэнергетической физики. ## Метод Мы использовали вариант LLaMa 3.2, который был приспособлен для работы с визуальными данными. Модель была обучена на изображениях, представляющих взаимодействия нейтрино, построенных на основе данных, полученных с пикселируемых детекторов. Мы подготовили набор данных, состоящий из изображений, содержащих различные виды взаимодействий нейтрино (электронные и мюонные), а также изображений-шумов, которые не содержат взаимодействий. Для сравнения, мы также обучили и протестировали стандартную CNN-архитектуру, которая используется в экспериментах NOvA и DUNE. Наша модель принимает в качестве входных данных решетки пикселей, представляющую собой двумерное изображение, где каждая клетка соответствует определенному пикселю в датчике. Мы также использовали дополнительные метаданные, такие как текстовые описания и семантическая информация, чтобы дополнить входные данные и добиться более точной классификации. ## Результаты Экспериментальные результаты показали, что VLM-модель, приблизительно, дает 10-15% лучшую точность в классификации взаимодействий нейтрино по сравнению с CNN-моделью. Это было достигнуто в первую очередь благодаря ее способности

Abstract

Recent advances in Large Language Models (LLMs) have demonstrated their remarkable capacity to process and reason over structured and unstructured data modalities beyond natural language. In this work, we explore the applications of Vision Language Models (VLMs), specifically a fine-tuned variant of LLaMa 3.2, to the task of identifying neutrino interactions in pixelated detector data from high-energy physics (HEP) experiments. We benchmark this model against a state-of-the-art convolutional neural network (CNN) architecture, similar to those used in the NOvA and DUNE experiments, which have achieved high efficiency and purity in classifying electron and muon neutrino events. Our evaluation considers both the classification performance and interpretability of the model predictions. We find that VLMs can outperform CNNs, while also providing greater flexibility in integrating auxiliary textual or semantic information and offering more interpretable, reasoning-based predictions. This work highlights the potential of VLMs as a general-purpose backbone for physics event classification, due to their high performance, interpretability, and generalizability, which opens new avenues for integrating multimodal reasoning in experimental neutrino physics.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Adapting Vision-Language Models for Neutrino Event Classification in High-Energy Physics

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Adapting Vision-Language Models for Neutrino Event Classification in High-Energy...

Fine-Tuning Vision-Language Models for Neutrino Event Analysis in High-Energy Ph...

Навигация