Rethinking Autonomy: Preventing Failures in AI-Driven Software Engineering

2508.11824v1 cs.SE, cs.AI, cs.CR, cs.PF 2025-08-19
Авторы:

Satyam Kumar Navneet, Joydeep Chandra

Резюме на русском

## Контекст Современное программирование сильно подверглось влиянию технологий искусственного интеллекта (ИИ), особенно благодаря развитию Больших Лингвистических Моделей (LLM). Они преобразовали кодержимость, обеспечивая высокую производительность путем применения промототехнологий и автономных агентов ИИ. Однако этот прогресс не без рисков. Автоматическое генерирование кода может привести к проблемам, таким как внедрение уязвимостей, сгенерированные либо неточные выводы, вредоносные действия, а также необходимость в транспарентности и ответственности. Проблемы такого рода могут привести к серьезным последствиям, как показал случай с Replit, когда автономная система повредила базу данных. Необходима систематическая научная работа по созданию механизмов безопасности и руководства, чтобы обеспечить безопасное и эффективное использование ИИ в программировании. ## Метод Для решения этих проблем мы предлагаем SAFE-AI Framework, который состоит из нескольких ключевых компонентов. Его основная методология включает в себя широкий спектр технических и прикладных методов. Включая: 1. **Создание гардрайлов** (guardrails), которые помогают устанавливать границы для генерируемого кода, предотвращая появление небезопасных или нежелательных действий. 2. **Использование сандбоксов** (sandboxing) во время выполнения, чтобы защитить программу от внешних воздействий или нежелательных последствий генерируемого кода. 3. **Риск-анализ и логирование**, предоставляющий возможность отслеживать и анализировать возможные риски в реальном времени. 4. **Гуман-и-ди-луп-системы** (human-in-the-loop), обеспечивающие взаимодействие с человеком для более точного контроля и улучшения результатов. 5. **Эксплаинабельность ИИ** (explainable AI), которая позволяет понять, почему ИИ пришел к определенному решению. Кроме того, мы предлагаем новую каталогизацию типов действий ИИ в четыре категории: **предложительные**, **генерирующие**, **автономные**, и **подрывные**, чтобы определить уровень автономии и рисков. ## Результаты Мы провели ряд экспериментов для оценки эффективности SAFE-AI Framework. Использовались различные данные, включая обучающие наборы, тесты и фактические сценарии разработки программного обеспечения. Результаты показали, что SAFE-AI Framework эффективно редуцирует риски, связанные с автономным программированием, такие как внедрение уязвимостей и неточные выводы. Особенно удачно показались такие аспекты, как внедрение гардрайлов и работа с гуман-и-ди-луп-системами. Также было замечено, что SAFE

Abstract

The integration of Large Language Models (LLMs) into software engineering has revolutionized code generation, enabling unprecedented productivity through promptware and autonomous AI agents. However, this transformation introduces significant risks, including insecure code generation, hallucinated outputs, irreversible actions, and a lack of transparency and accountability. Incidents like the Replit database deletion underscore the urgent need for robust safety and governance mechanisms. This paper comprehensively analyzes the inherent challenges of LLM-assisted code generation, such as vulnerability inheritance, overtrust, misinterpretation, and the absence of standardized validation and rollback protocols. To address these, we propose the SAFE-AI Framework, a holistic approach emphasizing Safety, Auditability, Feedback, and Explainability. The framework integrates guardrails, sandboxing, runtime verification, risk-aware logging, human-in-the-loop systems, and explainable AI techniques to mitigate risks while fostering trust and compliance. We introduce a novel taxonomy of AI behaviors categorizing suggestive, generative, autonomous, and destructive actions to guide risk assessment and oversight. Additionally, we identify open problems, including the lack of standardized benchmarks for code specific hallucinations and autonomy levels, and propose future research directions for hybrid verification, semantic guardrails, and proactive governance tools. Through detailed comparisons of autonomy control, prompt engineering, explainability, and governance frameworks, this paper provides a roadmap for responsible AI integration in software engineering, aligning with emerging regulations like the EU AI Act and Canada's AIDA to ensure safe, transparent, and accountable AI-driven development.

Ссылки и действия