On the Soundness and Consistency of LLM Agents for Executing Test Cases Written in Natural Language
2509.19136v1
cs.SE, cs.AI, D.2.4; D.2.5; F.3.1
2025-09-25
Авторы:
Sébastien Salva, Redha Taguelmimt
Резюме на русском
## Контекст
Область исследования включает в себя использование естественного языка (NL) для создания тестовых сценариев в процессе тестирования. Недостатком этого подхода является высокая стоимость разработки и трудности в поддержке скриптов. Новые возможности, предоставленные большими языковыми моделями (LLMs), позволяют использовать естественный язык непосредственно для выполнения тестов. Однако возникают проблемы, такие как неточность (unsoundness) тестовых сценариев и несогласованность их результатов при повторном выполнении. Необходимо разработать системы, обеспечивающие высокую надежность и точность выполнения тестов, чтобы сделать этот подход применимым в промышленных условиях.
## Метод
Предложена методология, основанная на использовании гибридных моделей: LLMs и специализированных агентов. Агенты отвечают за этапы исполнения тестов, например, выполнение действий в приложении, проверка результатов и динамическое верифицирование шагов. Для уменьшения уровня unsoundness используются механизмы "защитных заборов" (guardrails), которые предотвращают некорректное поведение модели. Также предложены меры для оценки точности выполнения тестов и уровня консистентности. Архитектура системы включает в себя модельный компонент, выполняющий текст тестов, и агентскую систему, обеспечивающую контроль и повторную проверку.
## Результаты
Были проведены эксперименты с восемью публично доступными LLMs, имеющими до 70 миллиардов параметров. Оценивались уровни unsoundness и consistency в выполнении тестов. Результаты показали, что Meta Llama 3.1 (70B параметров) показала лучший результат в том числе в высокой консистентности выполнения (выше уровня 3-sigma). Выявлены ситуации, в которых модели могут показать приемлемые результаты, но с рядом ограничений, таких как неоднозначные инструкции в NL-тестах. На основе этих результатов были разработаны прототипы инструментов и наборы тестов.
## Значимость
Результаты имеют потенциал для применения в промышленном тестировании приложений с графическим интерфейсом. Основное преимущество — сокращение времени и стоимости разработки тестов благодаря использованию естественного языка. Также отмечается повышение уровня надежности и повторяемости тестов, что способствует улучшению качества программного обеспечения. Направления будущих исследований включают улучшение моделей, уменьшение неоднозначности естественного языка и повышение уровня контроля в тестировании.
## Выводы
Полученные результаты подтвердили потенциал LLMs в выполнении NL-тестов, особенно при использовании моделей с
Abstract
The use of natural language (NL) test cases for validating graphical user
interface (GUI) applications is emerging as a promising direction to manually
written executable test scripts, which are costly to develop and difficult to
maintain. Recent advances in large language models (LLMs) have opened the
possibility of the direct execution of NL test cases by LLM agents. This paper
investigates this direction, focusing on the impact on NL test case unsoundness
and on test case execution consistency. NL test cases are inherently unsound,
as they may yield false failures due to ambiguous instructions or unpredictable
agent behaviour. Furthermore, repeated executions of the same NL test case may
lead to inconsistent outcomes, undermining test reliability. To address these
challenges, we propose an algorithm for executing NL test cases with guardrail
mechanisms and specialised agents that dynamically verify the correct execution
of each test step. We introduce measures to evaluate the capabilities of LLMs
in test execution and one measure to quantify execution consistency. We propose
a definition of weak unsoundness to characterise contexts in which NL test case
execution remains acceptable, with respect to the industrial quality levels Six
Sigma. Our experimental evaluation with eight publicly available LLMs, ranging
from 3B to 70B parameters, demonstrates both the potential and current
limitations of current LLM agents for GUI testing. Our experiments show that
Meta Llama 3.1 70B demonstrates acceptable capabilities in NL test case
execution with high execution consistency (above the level 3-sigma). We provide
prototype tools, test suites, and results.