app.build: A Production Framework for Scaling Agentic Prompt-to-App Generation with Environment Scaffolding
2509.03310v1
cs.AI, cs.SE
2025-09-05
Авторы:
Evgenii Kniazev, Arseny Kravchenko, Igor Rekun, James Broadhead, Nikita Shamgunov, Pranav Sah, Pratik Nichite, Ivan Yamshchikov
Резюме на русском
#################################
## Контекст
#################################
Современные приложения, основанные на генерируемых с помощью глубоких узнавательных моделей (LLM), требуют значительных усилий для их надежной и эффективной реализации. Основные проблемы включают несоответствие тестового кода производственным системам, отсутствие спецификации для различных стеков технологий и неэффективные методы проверки и интеграции. Эти проблемы приводят к высокой стоимости развития, недостаточной надежности приложений и низкой производительности. Наша мотивация заключается в создании фреймворка, который мог бы упростить и улучшить процесс генерации и развертывания LLM-based приложений, обеспечив более надежные и эффективные решения.
#################################
## Метод
#################################
Мы предлагаем app.build, открытый фреймворк для улучшения генерирования и развертывания приложений с использованием глубоких узнавательных моделей. Основные компоненты фреймворка включают:
1. **Многоуровневая проверка**: Основываясь на многоуровневых валидационных конвейерах, мы проверяем код на соответствие стандартам и задаче, а также проводим проверку подключения к системным компонентам.
2. **Структурированные среды**: Мы предоставляем специально сконфигурированные среды для различных стеков технологий, которые помогают сократить время развертывания и уменьшить ошибки.
3. **Модель-агностичная архитектура**: Наша система может работать со многими глубокими узнавательными моделями, обеспечивая гибкость и легкость внедрения.
4. **Оркестрация стека**: Мы оркестрируем различные стеки технологий, используя специальные контейнеры, которые позволяют эффективно связывать приложения с системными ресурсами.
#################################
## Результаты
#################################
Мы провели эксперименты на 30 задачах генерации приложений, используя данные из различных стеков технологий. Наши результаты показывают, что:
- **Валидационная система**: Мы достигли 73.3% валидных результатов, с 30% решений, достигших идеального качества.
- **Открытые модели**: Модели с открытым весом показали 80.8% производительности по сравнению с закрытыми моделями, когда использовались структурированные среды.
- **Производительность**: Мы также отметили существенное увеличение скорости развертывания и надежности приложений благодаря использованию структурированных сред и валидационных конвейеров.
Эти результаты демонстрируют, что наш фреймворк может значительно улучшить производительность и надежность генерируемых приложений.
#################################
## Значимость
#################################
app.build может быть применен в различных областях, где требуется быстрая генерация и развертывание приложений на основе глубоких узнавательных мо
Abstract
We present app.build (https://github.com/appdotbuild/agent/), an open-source
framework that improves LLM-based application generation through systematic
validation and structured environments. Our approach combines multi-layered
validation pipelines, stack-specific orchestration, and model-agnostic
architecture, implemented across three reference stacks. Through evaluation on
30 generation tasks, we demonstrate that comprehensive validation achieves
73.3% viability rate with 30% reaching perfect quality scores, while
open-weights models achieve 80.8% of closed-model performance when provided
structured environments. The open-source framework has been adopted by the
community, with over 3,000 applications generated to date. This work
demonstrates that scaling reliable AI agents requires scaling environments, not
just models -- providing empirical insights and complete reference
implementations for production-oriented agent systems.
Ссылки и действия
Дополнительные ресурсы: