CelloAI: Leveraging Large Language Models for HPC Software Development in High Energy Physics

2508.16713v1 cs.SE, cs.AI, hep-ex 2025-08-27
Авторы:

Mohammad Atif, Kriti Chopra, Ozgur Kilic, Tianle Wang, Zhihua Dong, Charles Leggett, Meifeng Lin, Paolo Calafiura, Salman Habib

Резюме на русском

## Контекст High Energy Physics (HEP) находится на переломном этапе развития, возникающем в связи с ростом требований к обработке и хранению данных, полученных в результате высокочастотных экспериментов. Этот бурный рост данных приводит к необходимости внедрения высокопроизводительных вычислений (HPC) в существующую инфраструктуру, в которой возникают новые сложности, такие как необходимость портирования устаревшего программного обеспечения на новые архитектуры и недостаточность документации, связанной с характером высокотехнологичных научных приложений. Эти проблемы ограничивают возможности эффективного использования HPC-технологий в HEP. Для решения этих задач необходим развитый инструментарий, который может упростить процессы документирования и генерации кода, а также помочь в понимании и модификации сложных научных приложений. ## Метод CelloAI — это локально развернутый кодинговый помощник, основанный на Large Language Models (LLMs), который использует технологию Retrieval-Augmented Generation (RAG) для поддержки документации и генерации кода в области теоретической физики. Архитектура CelloAI включает в себя несколько специализированных компонентов для различных задач. Для документации кода он предлагает: (a) генерацию комментариев в стиле Doxygen для функций и классов, (b) генерацию сводки по файлам, и (c) взаимодействие с интерактивным чатботом для запросов по пониманию кода. Для генерации кода CelloAI использует синтаксически ориентированные алгоритмы, которые сохраняют синтаксические границы во время задания входных данных, что улучшает точность восстановления в больших кодовых базах. Он также использует связанные с графами вызовов информацию для сохранения связности во время изменений. Локальное развертывание CelloAI обеспечивает безопасность данных, экономичность и доступ к большим контекстным окружениям без зависимостей от внешних систем. ## Результаты Чтобы оценить эффективность CelloAI, мы провели эксперименты с реальными приложениями HEP, в том числе с приложениями ATLAS, CMS и DUNE. Мы сравнили различные модели вставки для кода в целях выбора наиболее эффективной. Эксперименты показали, что восстановление кода с помощью CelloAI значительно улучшает понимание и поддержку кода. Также были протестированы возможности генерации кода, в том числе предложений для оптимизации производительности и рефакторинга. Результаты показали, что CelloAI обеспечивает надежную поддержку разработки кода, обеспечивая при этом полную прозрачность и безопасность, необходимые для научных приложений. ## Значимость CelloAI может быть применен в различных областях, где требуется поддержка генерации и документации кода в сложных науч

Abstract

Next-generation High Energy Physics (HEP) experiments will generate unprecedented data volumes, necessitating High Performance Computing (HPC) integration alongside traditional high-throughput computing. However, HPC adoption in HEP is hindered by the challenge of porting legacy software to heterogeneous architectures and the sparse documentation of these complex scientific codebases. We present CelloAI, a locally hosted coding assistant that leverages Large Language Models (LLMs) with retrieval-augmented generation (RAG) to support HEP code documentation and generation. This local deployment ensures data privacy, eliminates recurring costs and provides access to large context windows without external dependencies. CelloAI addresses two primary use cases, code documentation and code generation, through specialized components. For code documentation, the assistant provides: (a) Doxygen style comment generation for all functions and classes by retrieving relevant information from RAG sources (papers, posters, presentations), (b) file-level summary generation, and (c) an interactive chatbot for code comprehension queries. For code generation, CelloAI employs syntax-aware chunking strategies that preserve syntactic boundaries during embedding, improving retrieval accuracy in large codebases. The system integrates callgraph knowledge to maintain dependency awareness during code modifications and provides AI-generated suggestions for performance optimization and accurate refactoring. We evaluate CelloAI using real-world HEP applications from ATLAS, CMS, and DUNE experiments, comparing different embedding models for code retrieval effectiveness. Our results demonstrate the AI assistant's capability to enhance code understanding and support reliable code generation while maintaining the transparency and safety requirements essential for scientific computing environments.

Ссылки и действия