Data Dependency Inference for Industrial Code Generation Based on UML Sequence Diagrams

2508.03379v2 cs.AI, cs.SE 2025-08-09

Авторы:

Wenxin Mao, Zhitao Wang, Long Wang, Sirong Chen, Cuiyun Gao, Luyang Cao, Ziming Liu, Qiming Zhang, Jun Zhou, Zhi Jin

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Разработка программного обеспечения в сфере сервисно-ориентированных архитектур зачастую сталкивается с высокой сложностью и неоднозначностью требований. Особенно это актуально для систем, требующих сложных поведенческих моделей, условной логики и архитектурных ограничений. Традиционные методы генерации кода, основанные на естественном языке (NL), часто не справляются с этими вызовами из-за неявности и неполноты естественных описаний. Недостаточно точного представления структурных и функциональных зависимостей в описании может приводить к ошибкам в полученном коде, что становится критическим в промышленных приложениях. Одним из ключевых проблем является неточная интерпретация неявных данных зависимостей между компонентами системы. Такие зависимости трудно выразить на естественном языке, особенно в контексте сервис-ориентированных архитектур, где данные передаются между различными сервисами в условиях сложной логики взаимодействия. Это приводит к необходимости создания более точных и формализованных способов моделирования и генерации кода, которые могут учитывать все аспекты системного поведения и данных. В связи с этим, исследователи сформулировали задачу инференса данных зависимостей (Data Dependency Inference, DDI), которая направлена на создание формальных моделей зависимостей и последующего использования этих моделей для генерации кода. Однако, решение этой задачи требует новых подходов, которые могут обеспечить более высокую точность и упростить процесс генерации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы неявных данных зависимостей, авторы предлагают рамейновый подход под названием UML2Dep, который использует расширенную версию языка моделирования UML (Unified Modeling Language) для сервис-ориентированных архитектур. Этот подход основывается на использовании расширенных UML-диаграмм последовательности (sequence diagrams), которые включают в себя дополнительные элементы, такие как таблицы решений (decision tables) и спецификации API. Эти дополнения позволяют формализовать структурные отношения и бизнес-логику взаимодействия сервисов, что помогает избежать неоднозначности, связанной с естественным языком. Ключевым моментом метода является введение задачи DDI (Data Dependency Inference), которая формализована как задача математического резонанса с помощью специальных стратегий промптов (prompting strategies). Эти стратегии позволяют использовать сильные стороны языковых моделей (LLMs) в математическом резонании для точного определения зависимостей между данными. Дополнительно, метод использует статическую парсинг и прунинг (pruning) зависимостей для уменьшения количества данных, которые необходимо обрабатывать, что повышает точность и эффективность резонанса. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода были проведены эксперименты на реальных данных, включая сложные случаи сервис-ориентированных архитектур. Результаты показали, что использование расширенных UML-диаграмм и метода DDI значительно повышает точность генерации кода. Представление данных в виде графа зависимостей помогло снизить сложность контекста и улучшить качество результирующего кода. Было продемонтрировано, что формализованные подходы к инференсу данных зависимостей позволяют лучше учесть сложность системных взаимодействий и уменьшить количество ошибок в генерируемом коде. Эксперименты также показали, что метод UML2Dep эффективен в уменьшении количества ложных зависимостей и повышении скорости генерации кода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод UML2Dep имеет широкий спектр применений в промышленной разработке программного обеспечения. Он может быть использован для автоматизации генерации кода в сложных системах, где необходимо учитывать множество факторов, таких как данные зависимости, бизнес-логика и архитектурные ограничения. Данный подход повышает эффективность разработки, сокращая время на разработку и уменьшая вероятность ошибок. Кроме того, метод может быть применен в областях, требующих высокой точности и надежности, таких как финансовые системы, ИИ и автономные системы. Он также может быть полезен для разработчиков, которым необходимо быстро создавать код на основе сложных требований. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках исследования было показано, что UML2Dep представляет собой эффективный метод для генерации кода на основе UML-диаграмм последовательности. Данный подход позволяет формализовать сложные требования и улучшить точность генерации кода. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая интеграцию с другими технологиями и расширение его применения на другие области разработки.

Abstract

Large language models (LLMs) excel at generating code from natural language (NL) descriptions. However, the plain textual descriptions are inherently ambiguous and often fail to capture complex requirements like intricate system behaviors, conditional logic, and architectural constraints; implicit data dependencies in service-oriented architectures are difficult to infer and handle correctly. To bridge this gap, we propose a novel step-by-step code generation framework named UML2Dep by leveraging unambiguous formal specifications of complex requirements. First, we introduce an enhanced Unified Modeling Language (UML) sequence diagram tailored for service-oriented architectures. This diagram extends traditional visual syntax by integrating decision tables and API specifications, explicitly formalizing structural relationships and business logic flows in service interactions to rigorously eliminate linguistic ambiguity. Second, recognizing the critical role of data flow, we introduce a dedicated data dependency inference (DDI) task. DDI systematically constructs an explicit data dependency graph prior to actual code synthesis. To ensure reliability, we formalize DDI as a constrained mathematical reasoning task through novel prompting strategies, aligning with LLMs' excellent mathematical strengths. Additional static parsing and dependency pruning further reduce context complexity and cognitive load associated with intricate specifications, thereby enhancing reasoning accuracy and efficiency.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Data Dependency Inference for Industrial Code Generation Based on UML Sequence Diagrams

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

GovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows

TaskEval: Synthesised Evaluation for Foundation-Model Tasks

PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing,...

Learning to Debug: LLM-Organized Knowledge Trees for Solving RTL Assertion Failu...

Natural Emergent Misalignment from Reward Hacking in Production RL

Навигация