app.build: A Production Framework for Scaling Agentic Prompt-to-App Generation with Environment Scaffolding

2509.03310v1 cs.AI, cs.SE 2025-09-05

Авторы:

Evgenii Kniazev, Arseny Kravchenko, Igor Rekun, James Broadhead, Nikita Shamgunov, Pranav Sah, Pratik Nichite, Ivan Yamshchikov

Резюме на русском

################################# ## Контекст ################################# Современные приложения, основанные на генерируемых с помощью глубоких узнавательных моделей (LLM), требуют значительных усилий для их надежной и эффективной реализации. Основные проблемы включают несоответствие тестового кода производственным системам, отсутствие спецификации для различных стеков технологий и неэффективные методы проверки и интеграции. Эти проблемы приводят к высокой стоимости развития, недостаточной надежности приложений и низкой производительности. Наша мотивация заключается в создании фреймворка, который мог бы упростить и улучшить процесс генерации и развертывания LLM-based приложений, обеспечив более надежные и эффективные решения. ################################# ## Метод ################################# Мы предлагаем app.build, открытый фреймворк для улучшения генерирования и развертывания приложений с использованием глубоких узнавательных моделей. Основные компоненты фреймворка включают: 1. **Многоуровневая проверка**: Основываясь на многоуровневых валидационных конвейерах, мы проверяем код на соответствие стандартам и задаче, а также проводим проверку подключения к системным компонентам. 2. **Структурированные среды**: Мы предоставляем специально сконфигурированные среды для различных стеков технологий, которые помогают сократить время развертывания и уменьшить ошибки. 3. **Модель-агностичная архитектура**: Наша система может работать со многими глубокими узнавательными моделями, обеспечивая гибкость и легкость внедрения. 4. **Оркестрация стека**: Мы оркестрируем различные стеки технологий, используя специальные контейнеры, которые позволяют эффективно связывать приложения с системными ресурсами. ################################# ## Результаты ################################# Мы провели эксперименты на 30 задачах генерации приложений, используя данные из различных стеков технологий. Наши результаты показывают, что: - **Валидационная система**: Мы достигли 73.3% валидных результатов, с 30% решений, достигших идеального качества. - **Открытые модели**: Модели с открытым весом показали 80.8% производительности по сравнению с закрытыми моделями, когда использовались структурированные среды. - **Производительность**: Мы также отметили существенное увеличение скорости развертывания и надежности приложений благодаря использованию структурированных сред и валидационных конвейеров. Эти результаты демонстрируют, что наш фреймворк может значительно улучшить производительность и надежность генерируемых приложений. ################################# ## Значимость ################################# app.build может быть применен в различных областях, где требуется быстрая генерация и развертывание приложений на основе глубоких узнавательных мо

Abstract

We present app.build (https://github.com/appdotbuild/agent/), an open-source framework that improves LLM-based application generation through systematic validation and structured environments. Our approach combines multi-layered validation pipelines, stack-specific orchestration, and model-agnostic architecture, implemented across three reference stacks. Through evaluation on 30 generation tasks, we demonstrate that comprehensive validation achieves 73.3% viability rate with 30% reaching perfect quality scores, while open-weights models achieve 80.8% of closed-model performance when provided structured environments. The open-source framework has been adopted by the community, with over 3,000 applications generated to date. This work demonstrates that scaling reliable AI agents requires scaling environments, not just models -- providing empirical insights and complete reference implementations for production-oriented agent systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

app.build: A Production Framework for Scaling Agentic Prompt-to-App Generation with Environment Scaffolding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

GovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows

TaskEval: Synthesised Evaluation for Foundation-Model Tasks

PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing,...

Learning to Debug: LLM-Organized Knowledge Trees for Solving RTL Assertion Failu...

Natural Emergent Misalignment from Reward Hacking in Production RL

Навигация