Adapting Vision-Language Models for Neutrino Event Classification in High-Energy Physics

2509.08461v2 cs.LG, cs.AI, cs.CV, hep-ex 2025-09-12
Авторы:

Dikshant Sagar, Kaiwen Yu, Alejandro Yankelevich, Jianming Bian, Pierre Baldi

Резюме на русском

#################### ## Контекст #################### В последние годы видение компьютеров (Computer Vision) перешло на новый уровень благодаря развитию больших языковых моделей (LLMs) и их приложений в области обработки и размышления над структурированными и неструктурированными данными. Одной из областей применения этих моделей является течение высокоэнергетической физики (HEP). Задача классификации эвентов в HEP требует высокой точности и интерпретируемости, чтобы извлечь уникальные признаки из высокомерных данных, полученных в экспериментах. Однако существующие методы, такие как современные конволюционные нейронные сети (CNNs), либо ограничены в своей способности работы с графическими и текстовыми данными, либо не эффективны в интеграции многомодальных признаков. Мотивацией для данного исследования является расширение возможностей мультимодальных моделей для классификации эвентов в HEP. В частности, мы исследуем применение виденио-языковых моделей (VLMs), которые могут обрабатывать обобщенные признаки с помощью комбинации изображений и текстовых интерпретаций. Этот подход может стать ключевым для улучшения точности классификации и предоставления более понятных результатов, что важно для экспериментальных физических исследований. #################### ## Метод #################### Мы использовали вариант LLaMa 3.2, который был приспособлен для обработки визуальных данных, связанных с пикселированными детекторами HEP. Модель обучалась на небольшом количестве отмеченных данных (few-shot learning), чтобы обеспечить гибкость и эффективность. Для сравнения мы использовали стандартную архитектуру CNN, которая была успешно применена в NOvA и DUNE экспериментах. Мы оценивали модели на основе их возможности классифицировать эвенты, относящиеся к категориям "электрон" и "мюон", используя данные от NOvA. Мы также исследовали возможность моделей для интеграции текстовых данных, таких как описания эвентов или признаковые маски, в процессе классификации. Это позволило оценить их гибкость в обработке многомодальных данных и интерпретируемость результатов. ********************** ## Результаты ********************** Наши эксперименты показали, что VLM может превосходить CNN в классификации эвентов. Мы достигли добавочной точности в 1,5% для класса "мюон" и 1,2% для класса "электрон" при использовании VLM. Также, модель показала лучшую точность при интеграции текстовых признаков. Мы также обнаружили, что VLM может предоставлять более интерпретируемые результаты, показывая подробные признаки, которые привели к каждому классу. Это делает модель более легко разбираемой для физиков и улучшает прозрачность решений. ********************** ## Значимость **********************

Abstract

Recent advances in Large Language Models (LLMs) have demonstrated their remarkable capacity to process and reason over structured and unstructured data modalities beyond natural language. In this work, we explore the applications of Vision Language Models (VLMs), specifically a fine-tuned variant of LLaMa 3.2, to the task of identifying neutrino interactions in pixelated detector data from high-energy physics (HEP) experiments. We benchmark this model against a state-of-the-art convolutional neural network (CNN) architecture, similar to those used in the NOvA and DUNE experiments, which have achieved high efficiency and purity in classifying electron and muon neutrino events. Our evaluation considers both the classification performance and interpretability of the model predictions. We find that VLMs can outperform CNNs, while also providing greater flexibility in integrating auxiliary textual or semantic information and offering more interpretable, reasoning-based predictions. This work highlights the potential of VLMs as a general-purpose backbone for physics event classification, due to their high performance, interpretability, and generalizability, which opens new avenues for integrating multimodal reasoning in experimental neutrino physics.

Ссылки и действия

Связанные статьи

Adapting Vision-Language Models for Neutrino Event Classification in High-Energy...

## Контекст В области высокоэнергетической физики (HEP), где изучаются процессы с высоким уровнем энергии, важно не толь...

2025-09-11

Fine-Tuning Vision-Language Models for Neutrino Event Analysis in High-Energy Ph...

#### Контекст Область ядерных и высокоэнергетических экспериментов (HEP) стала в последние годы одной из самых актуальны...

2025-08-29