EvoGraph: Hybrid Directed Graph Evolution toward Software 3.0

2508.05199v1 cs.SE, cs.AI, D.2.2; D.2.7; I.2.2 2025-08-09

Авторы:

Igor Costa, Christopher Baran

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное программное обеспечение сталкивается с критическим вызовом ускоряющейся технологической эволюции, где традиционные подходы разработки не справляются с масштабами и сложностью поддержки устаревающих систем. Легаси-код, написанный на устаревших языках вроде COBOL, CGI, ColdFusion и Lisp, продолжает выполнять критически важные функции в банковской, государственной и корпоративной инфраструктуре, но страдает от отсутствия специалистов, документации и совместимости с современными стандартами безопасности. Параллельно растет технический долг в современных системах, где быстрое добавление новых функций ведет к накоплению архитектурных компромиссов и уязвимостей безопасности. Традиционные методы модернизации, включая ручной рефакторинг и автоматизированные инструменты на основе правил, демонстрируют фундаментальные ограничения. Ручные подходы масштабируются линейно с числом разработчиков и страдают от человеческого фактора, в то время как правило-ориентированные инструменты не способны адаптироваться к контексту и часто нарушают неявные контракты системы. Большие языковые модели (LLM), несмотря на свою мощность, страдают от высоких вычислительных затрат, недостаточной контролируемости и тенденции к "галлюцинациям" при генерации кода, что критично для продакшен-систем. Авторы статьи формулируют концепцию "Software 3.0" как следующий этап эволюции программного обеспечения, где системы становятся способными к непрерывной самоэволюции при сохранении измеримого контроля над качеством и поведением. Ключевая проблема заключается в создании такого механизма эволюции, который мог бы эффективно работать с разнородными артефактами разработки (кодом, документацией, тестами, билдами) при этом оставаясь практически применимым в условиях реальных ограничений производственной среды. ## ПРЕДЛОЖЕННЫЙ МЕТОД EvoGraph представляет собой революционный фреймворк, который реализует принципы эволюционной биологии в контексте разработки программного обеспечения. Основой системы является строго типизированный направленный граф, где каждый узел представляет собой конкретный артефакт разработки - от строк кода и тестов до документации и билд-скриптов. Ребра графа выражают семантические и технические зависимости между артефактами, создавая исчерпывающую модель всей системы. Центральным элементом является набор специализированных малых языковых моделей (SLM), каждая из которых обучена для выполнения конкретного типа мутаций. В отличие от универсальных LLM, эти модели имеют гораздо меньший размер (от 7M до 1B параметров), что обеспечивает 90% экономию вычислительных ресурсов. Каждая SLM реализует набор семантически значимых мутационных операторов, специфичных для конкретного языка программирования или типа артефакта. Например, для COBOL-Java трансформации модель обучена распознавать паттерны бизнес-логики и эквивалентно их переносить в объектно-ориентированную парадигму. Процесс эволюции реализуется через итеративный цикл генерации-отбора-мутации. На каждом поколении система генерирует множество вариантов изменений, применяя мутационные операторы к текущему состоянию графа. Отбор потомков осуществляется на основе многокритериальной функции приспособленности, включающей метрики функциональной эквивалентности (через тесты), производительности, безопасности, читаемости кода и актуальности документации. Особенностью является использование Pareto-оптимизации, позволяющей находить компромиссы между конфликтующими целями. Критически важным является механизм контролируемой эволюции. Система поддерживает "безопасные зоны" изменений, где критические компоненты могут эволюционировать только при наличии полного покрытия тестами и утверждения со стороны человека-оператора. Для поддержания семантической корректности используется продвинутая система формальной верификации и property-based тестирования, что позволяет детектировать нарушения неявных контрактов системы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация EvoGraph проводилась на трех ключевых бенчмарках, каждый из которых адресует критически важные аспекты современной

Abstract

We introduce **EvoGraph**, a framework that enables software systems to evolve their own source code, build pipelines, documentation, and tickets. EvoGraph represents every artefact in a typed directed graph, applies learned mutation operators driven by specialized small language models (SLMs), and selects survivors with a multi-objective fitness. On three benchmarks, EvoGraph fixes 83% of known security vulnerabilities, translates COBOL to Java with 93% functional equivalence (test verified), and maintains documentation freshness within two minutes. Experiments show a 40% latency reduction and a sevenfold drop in feature lead time compared with strong baselines. We extend our approach to **evoGraph**, leveraging language-specific SLMs for modernizing .NET, Lisp, CGI, ColdFusion, legacy Python, and C codebases, achieving 82-96% semantic equivalence across languages while reducing computational costs by 90% compared to large language models. EvoGraph's design responds to empirical failure modes in legacy modernization, such as implicit contracts, performance preservation, and integration evolution. Our results suggest a practical path toward Software 3.0, where systems adapt continuously yet remain under measurable control.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация