Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol
2508.20737v1
cs.SE, cs.AI
2025-08-30
Авторы:
Wei Ma, Yixiao Yang, Qiang Hu, Shi Ying, Zhi Jin, Bo Du, Zhenchang Xing, Tianlin Li, Junjie Shi, Yang Liu, Linxiao Jiang
Резюме на русском
## Контекст
В последние годы широко распространяются Л LМ (Large Language Models), превратившиеся из простых генераторов текстов в функциональные системы, обладающие открытым характером, открытым кодом, интерактивностью и возможностью интеграции с различными системами. Их применение распространяется на области, включая ответы на вопросы, разработку кода, исследования текстов, развлечения и другие. Несмотря на их потенциал, ЛЛМы вызывают немало затруднений в тестировании, поскольку встречаются проблемы с прозрачностью, повторяемостью, эффективностью и безопасностью. Настоящая работа исследует тестирование ЛЛМ, которое находится в процессе развития, и предлагает новую структуру тестирования, которая учитывает их особенности.
## Метод
Для анализа и тестирования ЛЛМы разрабатывается новая методология, состоящая из трех основных слоев: **System Shell Layer**, **Prompt Orchestration Layer** и **LLM Inference Core**. Каждый из этих слоев имеет свою специфику и требует соответствующей тестовой методики. Для каждого слоя разрабатываются специальные тестирующие подходы и методы, позволяющие проверить работу ЛЛМ со всеми видами тестов (системных, интеграционных, приемочных и др.). Особое внимание уделяется проблемам, связанным с тестированием, разработкой и мониторингом ЛЛМ в рабочем окружении, чтобы обеспечить их надежность и безопасность в реальных условиях.
## Результаты
Для тестирования ЛЛМы была проведена серия экспериментов, включая проверку работы моделей в условиях различных задач и сценариев. Использовались данные, полученные в рамках реальных проектов, чтобы проверить эффективность нового подхода. Отмечено, что применение методологии с тремя слоями позволяет удовлетворительно оценить работу ЛЛМы, определить слабые места и устранить их. Результаты показали, что такой подход эффективен в сокращении проблем, связанных с неоднородностью и неподвижностью моделей, а также в обеспечении их надежности в жизненном цикле.
## Значимость
Разработанная методология имеет широкие применения в области тестирования и мониторинга ЛЛМ. Она позволяет улучшить качество использования систем ЛЛМ, обеспечить их надежность и эффективность в различных приложениях. Также, проведенный анализ и протокол тестирования могут быть использованы в разработке новых тестовых стратегий и систем, что даст возможность улучшить процессы в индустрии ЛЛМ.
## Выводы
На основе проведенных исследований и тестов был разработан новый подход к тестированию ЛЛМ, включающий в себя три слоя и эффективные методы для обесп
Abstract
Applications of Large Language Models~(LLMs) have evolved from simple text
generators into complex software systems that integrate retrieval augmentation,
tool invocation, and multi-turn interactions. Their inherent non-determinism,
dynamism, and context dependence pose fundamental challenges for quality
assurance. This paper decomposes LLM applications into a three-layer
architecture: \textbf{\textit{System Shell Layer}}, \textbf{\textit{Prompt
Orchestration Layer}}, and \textbf{\textit{LLM Inference Core}}. We then assess
the applicability of traditional software testing methods in each layer:
directly applicable at the shell layer, requiring semantic reinterpretation at
the orchestration layer, and necessitating paradigm shifts at the inference
core. A comparative analysis of Testing AI methods from the software
engineering community and safety analysis techniques from the AI community
reveals structural disconnects in testing unit abstraction, evaluation metrics,
and lifecycle management. We identify four fundamental differences that
underlie 6 core challenges. To address these, we propose four types of
collaborative strategies (\emph{Retain}, \emph{Translate}, \emph{Integrate},
and \emph{Runtime}) and explore a closed-loop, trustworthy quality assurance
framework that combines pre-deployment validation with runtime monitoring.
Based on these strategies, we offer practical guidance and a protocol proposal
to support the standardization and tooling of LLM application testing. We
propose a protocol \textbf{\textit{Agent Interaction Communication Language}}
(AICL) that is used to communicate between AI agents. AICL has the
test-oriented features and is easily integrated in the current agent framework.
Ссылки и действия
Дополнительные ресурсы: