Adapting Vision-Language Models for Neutrino Event Classification in High-Energy Physics
2509.08461v1
cs.LG, cs.AI, cs.CV, hep-ex
2025-09-11
Авторы:
Dikshant Sagar, Kaiwen Yu, Alejandro Yankelevich, Jianming Bian, Pierre Baldi
Резюме на русском
## Контекст
В области высокоэнергетической физики (HEP), где изучаются процессы с высоким уровнем энергии, важно не только наблюдать и записывать эти процессы, но и точно классифицировать и интерпретировать взаимодействия частиц. Одна из сложностей в этой области заключается в том, чтобы эффективно использовать данные, полученные с помощью пикселируемых детекторов, которые представляют собой графические матрицы, где каждая "пиксель" соответствует выходу энергии в определенной точке пространства. Традиционными методами классификации являются глубокие нейронные сети, такие как глубокие конволюционные сети (CNN), которые достаточно эффективно работают в этой области. В этом контексте возникает вопрос: могут ли видение-языковые модели (VLMs), развитые в рамках машинного обучения в последние годы, предоставить дополнительные преимущества в классификации таких событий? В частности, в последнее время, большие языковые модели (LLMs) продемонстрировали их способность работать не только с текстовыми данными, но и с другими типами данных, включая изображения и текст. Это привело к развитию видение-языковых моделей (VLMs), которые могут обрабатывать и понимать данные, которые сочетают в себе изображения и текст. Наша цель — определить, могут ли такие модели быть применены для классификации взаимодействий нейтрино в экспериментах высокоэнергетической физики.
## Метод
Мы использовали вариант LLaMa 3.2, который был приспособлен для работы с визуальными данными. Модель была обучена на изображениях, представляющих взаимодействия нейтрино, построенных на основе данных, полученных с пикселируемых детекторов. Мы подготовили набор данных, состоящий из изображений, содержащих различные виды взаимодействий нейтрино (электронные и мюонные), а также изображений-шумов, которые не содержат взаимодействий. Для сравнения, мы также обучили и протестировали стандартную CNN-архитектуру, которая используется в экспериментах NOvA и DUNE. Наша модель принимает в качестве входных данных решетки пикселей, представляющую собой двумерное изображение, где каждая клетка соответствует определенному пикселю в датчике. Мы также использовали дополнительные метаданные, такие как текстовые описания и семантическая информация, чтобы дополнить входные данные и добиться более точной классификации.
## Результаты
Экспериментальные результаты показали, что VLM-модель, приблизительно, дает 10-15% лучшую точность в классификации взаимодействий нейтрино по сравнению с CNN-моделью. Это было достигнуто в первую очередь благодаря ее способности
Abstract
Recent advances in Large Language Models (LLMs) have demonstrated their
remarkable capacity to process and reason over structured and unstructured data
modalities beyond natural language. In this work, we explore the applications
of Vision Language Models (VLMs), specifically a fine-tuned variant of LLaMa
3.2, to the task of identifying neutrino interactions in pixelated detector
data from high-energy physics (HEP) experiments. We benchmark this model
against a state-of-the-art convolutional neural network (CNN) architecture,
similar to those used in the NOvA and DUNE experiments, which have achieved
high efficiency and purity in classifying electron and muon neutrino events.
Our evaluation considers both the classification performance and
interpretability of the model predictions. We find that VLMs can outperform
CNNs, while also providing greater flexibility in integrating auxiliary textual
or semantic information and offering more interpretable, reasoning-based
predictions. This work highlights the potential of VLMs as a general-purpose
backbone for physics event classification, due to their high performance,
interpretability, and generalizability, which opens new avenues for integrating
multimodal reasoning in experimental neutrino physics.