You Don't Know Until You Click:Automated GUI Testing for Production-Ready Software Evaluation
2508.14104v1
cs.SE, cs.AI
2025-08-22
Авторы:
Yutong Bian, Xianhao Lin, Yupeng Xie, Tianyang Liu, Mingchen Zhuge, Siyuan Lu, Haoming Tang, Jinlin Wang, Jiayi Zhang, Jiaqi Chen, Xiangru Tang, Yongxin Ni, Sirui Hong, Chenglin Wu
Резюме на русском
## Контекст
Modern Large Language Models (LLMs) и code agents преобразовали процесс разработки программного обеспечения, перейдя от генерирования отдельных фрагментов кода к созданию полноценных приложений с графическими интерфейсами, интерактивным поведением и динамическими функциями. Однако существующие бенчмарки, ориентированные на оценку производительности LLMs, сфокусированы на статических проверках или бинарных процедурах "проходит/не проходит". Такие подходы не учитывают интерактивность и динамику поведения, которые определяют фактическую удобность использования в рабочей среде. Эта ситуация создает пустоту в оценке качества программного обеспечения, так как функциональность и внешний вид приложений можно оценить только в процессе имитации реального использования. Наша цель — заполнить эту целевую зону, обеспечив точные и автоматизированные системы оценки.
## Метод
Разработанное решение, **RealDevWorld**, является фреймворком для автоматизированной оценки производительности LLMs в создании production-ready приложений. Он включает два ключевых компонента:
1. **RealDevBench**: это инновационная коллекция 194 задач, охватывающих различные диапазоны инженерии программного обеспечения. Они включают мультимодальные элементы, которые делают задачи более реалистичными и сложными.
2. **AppEvalPilot**: это агент-судья, реализующий систему GUI-ориентированных имитаций пользовательских действий для автоматической оценки взаимодействия, визуального оформления и функциональности приложений в работе. Он обеспечивает поощрение детального диагностического анализа, вышелыгая за простые метрики преодоления или провала.
## Результаты
Проведенные эксперименты показали, что RealDevWorld эффективно используется для автоматического и корректного оценивания программного кода. Он достиг довольно высокой точности — 0.92, а также высокой корреляции результатов с оценками экспертов — 0.85. Это значительно сокращает время, необходимое для серьезных ручных проверок, и вводит новую, более надежную методику для оценки программного обеспечения.
## Значимость
RealDevWorld может быть применен в различных сферах, включая проверку качества программного кода, автоматизированное тестирование и оценку LLM-driven решений. Его основные преимущества заключаются в том, что он предоставляет точную, автоматизированную систему оценки, значительно уменьшает требования к ручным проверкам, и делает оценку доступной для многочисленных задач. Потенциальное влияние включает в себя улучшение качества программного обеспечения, ускорение развития и повышение эффективности процесса разработки.
## Выводы
Результаты показывают, что RealDevWorld я
Abstract
Large Language Models (LLMs) and code agents in software development are
rapidly evolving from generating isolated code snippets to producing
full-fledged software applications with graphical interfaces, interactive
logic, and dynamic behaviors. However, current benchmarks fall short in
evaluating such production-ready software, as they often rely on static checks
or binary pass/fail scripts, failing to capture the interactive behaviors and
runtime dynamics that define real-world usability - qualities that only emerge
when an application is actively used. This is the blind spot of current
evaluation: you don't know if an app works until you click through it, interact
with it, and observe how it responds. To bridge this gap, we introduce
RealDevWorld, a novel evaluation framework for automated end-to-end assessment
of LLMs' ability to generate production-ready repositories from scratch. It
features two key components: (1) RealDevBench, a diverse collection of 194
open-ended software engineering tasks across multiple domains, incorporating
multimodal elements to reflect real-world complexity; and (2) AppEvalPilot, a
new agent-as-a-judge evaluation system that simulates realistic, GUI-based user
interactions to automatically and holistically assess software functional
correctness, visual fidelity, and runtime behavior. The framework delivers
fine-grained, task-specific diagnostic feedback, supporting nuanced evaluation
beyond simple success/failure judgments. Empirical results show that
RealDevWorld delivers effective, automatic, and human-aligned evaluations,
achieving an accuracy of 0.92 and a correlation of 0.85 with expert human
assessments, while significantly reducing the reliance on manual review. This
enables scalable, human-aligned assessment of production-level software
generated by LLMs. Our code is available on GitHub.
Ссылки и действия
Дополнительные ресурсы: