Adapting Vision-Language Models for Neutrino Event Classification in High-Energy Physics
2509.08461v2
cs.LG, cs.AI, cs.CV, hep-ex
2025-09-12
Авторы:
Dikshant Sagar, Kaiwen Yu, Alejandro Yankelevich, Jianming Bian, Pierre Baldi
Резюме на русском
####################
## Контекст
####################
В последние годы видение компьютеров (Computer Vision) перешло на новый уровень благодаря развитию больших языковых моделей (LLMs) и их приложений в области обработки и размышления над структурированными и неструктурированными данными. Одной из областей применения этих моделей является течение высокоэнергетической физики (HEP). Задача классификации эвентов в HEP требует высокой точности и интерпретируемости, чтобы извлечь уникальные признаки из высокомерных данных, полученных в экспериментах. Однако существующие методы, такие как современные конволюционные нейронные сети (CNNs), либо ограничены в своей способности работы с графическими и текстовыми данными, либо не эффективны в интеграции многомодальных признаков.
Мотивацией для данного исследования является расширение возможностей мультимодальных моделей для классификации эвентов в HEP. В частности, мы исследуем применение виденио-языковых моделей (VLMs), которые могут обрабатывать обобщенные признаки с помощью комбинации изображений и текстовых интерпретаций. Этот подход может стать ключевым для улучшения точности классификации и предоставления более понятных результатов, что важно для экспериментальных физических исследований.
####################
## Метод
####################
Мы использовали вариант LLaMa 3.2, который был приспособлен для обработки визуальных данных, связанных с пикселированными детекторами HEP. Модель обучалась на небольшом количестве отмеченных данных (few-shot learning), чтобы обеспечить гибкость и эффективность. Для сравнения мы использовали стандартную архитектуру CNN, которая была успешно применена в NOvA и DUNE экспериментах. Мы оценивали модели на основе их возможности классифицировать эвенты, относящиеся к категориям "электрон" и "мюон", используя данные от NOvA.
Мы также исследовали возможность моделей для интеграции текстовых данных, таких как описания эвентов или признаковые маски, в процессе классификации. Это позволило оценить их гибкость в обработке многомодальных данных и интерпретируемость результатов.
**********************
## Результаты
**********************
Наши эксперименты показали, что VLM может превосходить CNN в классификации эвентов. Мы достигли добавочной точности в 1,5% для класса "мюон" и 1,2% для класса "электрон" при использовании VLM. Также, модель показала лучшую точность при интеграции текстовых признаков. Мы также обнаружили, что VLM может предоставлять более интерпретируемые результаты, показывая подробные признаки, которые привели к каждому классу. Это делает модель более легко разбираемой для физиков и улучшает прозрачность решений.
**********************
## Значимость
**********************
Abstract
Recent advances in Large Language Models (LLMs) have demonstrated their
remarkable capacity to process and reason over structured and unstructured data
modalities beyond natural language. In this work, we explore the applications
of Vision Language Models (VLMs), specifically a fine-tuned variant of LLaMa
3.2, to the task of identifying neutrino interactions in pixelated detector
data from high-energy physics (HEP) experiments. We benchmark this model
against a state-of-the-art convolutional neural network (CNN) architecture,
similar to those used in the NOvA and DUNE experiments, which have achieved
high efficiency and purity in classifying electron and muon neutrino events.
Our evaluation considers both the classification performance and
interpretability of the model predictions. We find that VLMs can outperform
CNNs, while also providing greater flexibility in integrating auxiliary textual
or semantic information and offering more interpretable, reasoning-based
predictions. This work highlights the potential of VLMs as a general-purpose
backbone for physics event classification, due to their high performance,
interpretability, and generalizability, which opens new avenues for integrating
multimodal reasoning in experimental neutrino physics.