Data Dependency Inference for Industrial Code Generation Based on UML Sequence Diagrams

2508.03379v1 cs.AI, cs.SE 2025-08-06
Авторы:

Wenxin Mao, Zhitao Wang Long Wang, Sirong Chen, Cuiyun Gao, Luyang Cao, Ziming Liu, Qiming Zhang, Jun Zhou, Zhi Jin

Резюме на русском

**Резюме:** Люки языковых моделей (LLM) демонстрируют высокую эффективность в генерации кода из натуральных текстов. Однако текстовые описания часто недостаточно точны для представления сложных требований, таких как сложные поведения системы, условные логики и архитектурные ограничения. Особенно трудно обработать неявные зависимости данных в сервис-ориентированных архитектурах. Для решения этой проблемы, авторы предлагают новый фреймворк UML2Dep, основанный на формальных спецификациях. Они расширяют UML-диаграммы последовательностей, включая в них диаграммы решений и API-спецификации, что позволяет формализовать структурные отношения и бизнес-логику в сервисных взаимодействиях. Далее, они вводят задачу вывода зависимостей данных (DDI), которая строит явную графическую модель зависимостей перед генерацией кода. Задача DDI формализуется как задача решения математических ограничений, используя стратегии промптинга, что позволяет выявить зависимости данных более точно и эффективно. Дополнительная статическая обработка и очистка графа зависимостей снижает контекстную сложность и повышает точность вывода. Ключевым результатом работы является разработка метода, который позволяет генерировать код на основе более точных и формальных спецификаций, снимая неопределённость и повышая точность генерации кода.

Abstract

Large language models (LLMs) excel at generating code from natural language (NL) descriptions. However, the plain textual descriptions are inherently ambiguous and often fail to capture complex requirements like intricate system behaviors, conditional logic, and architectural constraints; implicit data dependencies in service-oriented architectures are difficult to infer and handle correctly. To bridge this gap, we propose a novel step-by-step code generation framework named UML2Dep by leveraging unambiguous formal specifications of complex requirements. First, we introduce an enhanced Unified Modeling Language (UML) sequence diagram tailored for service-oriented architectures. This diagram extends traditional visual syntax by integrating decision tables and API specifications, explicitly formalizing structural relationships and business logic flows in service interactions to rigorously eliminate linguistic ambiguity. Second, recognizing the critical role of data flow, we introduce a dedicated data dependency inference (DDI) task. DDI systematically constructs an explicit data dependency graph prior to actual code synthesis. To ensure reliability, we formalize DDI as a constrained mathematical reasoning task through novel prompting strategies, aligning with LLMs' excellent mathematical strengths. Additional static parsing and dependency pruning further reduce context complexity and cognitive load associated with intricate specifications, thereby enhancing reasoning accuracy and efficiency.

Ссылки и действия