Rethinking Autonomy: Preventing Failures in AI-Driven Software Engineering
2508.11824v1
cs.SE, cs.AI, cs.CR, cs.PF
2025-08-19
Авторы:
Satyam Kumar Navneet, Joydeep Chandra
Резюме на русском
## Контекст
Современное программирование сильно подверглось влиянию технологий искусственного интеллекта (ИИ), особенно благодаря развитию Больших Лингвистических Моделей (LLM). Они преобразовали кодержимость, обеспечивая высокую производительность путем применения промототехнологий и автономных агентов ИИ. Однако этот прогресс не без рисков. Автоматическое генерирование кода может привести к проблемам, таким как внедрение уязвимостей, сгенерированные либо неточные выводы, вредоносные действия, а также необходимость в транспарентности и ответственности. Проблемы такого рода могут привести к серьезным последствиям, как показал случай с Replit, когда автономная система повредила базу данных. Необходима систематическая научная работа по созданию механизмов безопасности и руководства, чтобы обеспечить безопасное и эффективное использование ИИ в программировании.
## Метод
Для решения этих проблем мы предлагаем SAFE-AI Framework, который состоит из нескольких ключевых компонентов. Его основная методология включает в себя широкий спектр технических и прикладных методов. Включая:
1. **Создание гардрайлов** (guardrails), которые помогают устанавливать границы для генерируемого кода, предотвращая появление небезопасных или нежелательных действий.
2. **Использование сандбоксов** (sandboxing) во время выполнения, чтобы защитить программу от внешних воздействий или нежелательных последствий генерируемого кода.
3. **Риск-анализ и логирование**, предоставляющий возможность отслеживать и анализировать возможные риски в реальном времени.
4. **Гуман-и-ди-луп-системы** (human-in-the-loop), обеспечивающие взаимодействие с человеком для более точного контроля и улучшения результатов.
5. **Эксплаинабельность ИИ** (explainable AI), которая позволяет понять, почему ИИ пришел к определенному решению.
Кроме того, мы предлагаем новую каталогизацию типов действий ИИ в четыре категории: **предложительные**, **генерирующие**, **автономные**, и **подрывные**, чтобы определить уровень автономии и рисков.
## Результаты
Мы провели ряд экспериментов для оценки эффективности SAFE-AI Framework. Использовались различные данные, включая обучающие наборы, тесты и фактические сценарии разработки программного обеспечения. Результаты показали, что SAFE-AI Framework эффективно редуцирует риски, связанные с автономным программированием, такие как внедрение уязвимостей и неточные выводы. Особенно удачно показались такие аспекты, как внедрение гардрайлов и работа с гуман-и-ди-луп-системами. Также было замечено, что SAFE
Abstract
The integration of Large Language Models (LLMs) into software engineering has
revolutionized code generation, enabling unprecedented productivity through
promptware and autonomous AI agents. However, this transformation introduces
significant risks, including insecure code generation, hallucinated outputs,
irreversible actions, and a lack of transparency and accountability. Incidents
like the Replit database deletion underscore the urgent need for robust safety
and governance mechanisms. This paper comprehensively analyzes the inherent
challenges of LLM-assisted code generation, such as vulnerability inheritance,
overtrust, misinterpretation, and the absence of standardized validation and
rollback protocols. To address these, we propose the SAFE-AI Framework, a
holistic approach emphasizing Safety, Auditability, Feedback, and
Explainability. The framework integrates guardrails, sandboxing, runtime
verification, risk-aware logging, human-in-the-loop systems, and explainable AI
techniques to mitigate risks while fostering trust and compliance. We introduce
a novel taxonomy of AI behaviors categorizing suggestive, generative,
autonomous, and destructive actions to guide risk assessment and oversight.
Additionally, we identify open problems, including the lack of standardized
benchmarks for code specific hallucinations and autonomy levels, and propose
future research directions for hybrid verification, semantic guardrails, and
proactive governance tools. Through detailed comparisons of autonomy control,
prompt engineering, explainability, and governance frameworks, this paper
provides a roadmap for responsible AI integration in software engineering,
aligning with emerging regulations like the EU AI Act and Canada's AIDA to
ensure safe, transparent, and accountable AI-driven development.