Prompt2DAG: A Modular Methodology for LLM-Based Data Enrichment Pipeline Generation
2509.13487v1
cs.SE, cs.AI
2025-09-19
Авторы:
Abubakari Alidu, Michele Ciavotta, Flavio DePaoli
Резюме на русском
#### Контекст
Разработка надежных пайлов для обогащения данных требует значительных технических навыков и экспертизы. Одной из самых сложных задач в этой области является автоматизация генерирования этих пайлов с помощью глубоко обученных моделей (LLMs). В настоящее время существует недостаток методов, позволяющих автоматически генерировать высококачественные пайлы для различных сценариев. Эти проблемы влекут за собой потери времени, ресурсов и неэффективность при разработке. Объектом исследования является разработка методологии, которая бы позволила легко и эффективно генерировать пайлы для обогащения данных на основе естественного языка, обеспечивая их высокую надежность и эффективность.
#### Метод
Методология Prompt2DAG представляет собой модульную систему, которая преобразует естественный языковой запрос в выполняемые DAG-файлы для Apache Airflow. Она включает четыре подхода к генерации: **Direct** (прямая генерация с помощью LLMs), **LLM-only** (полностью на основе LLMs), **Hybrid** (с использованием гибридной модели, сочетающей LLM и шаблоны) и **Template-based** (шаблонная генерация). Методология также использует 13 моделей LLMs и проводит 260 экспериментов для оценки качества генерируемых DAG-файлов. Оценка выполняется с использованием специального рамщика, измеряющего надежность (SAT), структурную корректность (DST) и исполнимость (PCT) DAG-файлов.
#### Результаты
Эксперименты показали, что **Hybrid**-подход дает наилучшие результаты, достигая 78.5% успешности в генерации DAG-файлов. Этот подход также достиг высоких показателей качества кода: SAT (6.79), DST (7.67) и PCT (7.76). В сравнении с **LLM-only** (66.2% успешности) и **Direct** (29.2% успешности), Hybrid-подход показал значительное превосходство, особенно в обеспечении надежности. Анализ затрат показал, что Hybrid-подход дважды эффективнее Direct-подхода, что делает его более выгодным для производственных применений. Таким образом, Hybrid-подход демонстрирует баланс между гибкостью и надежностью, что делает его применимым для автоматизированной разработки пайлов обогащения данных.
#### Значимость
Результаты имеют значительное значение для различных сфер, включая автоматизацию процессов в области бизнес-аналитики, машинного обучения и интеллектуального анализа данных. Методология Prompt2DAG позволяет эффективно демократизировать доступ к технологиям обогащения данных, уменьшая затраты на разработку и поддержку таких систем. Основными преимуществами являются увеличение производительности, сокращение времени на разработку и повышение надежности. Будущие исследования б
Abstract
Developing reliable data enrichment pipelines demands significant engineering
expertise. We present Prompt2DAG, a methodology that transforms natural
language descriptions into executable Apache Airflow DAGs. We evaluate four
generation approaches -- Direct, LLM-only, Hybrid, and Template-based -- across
260 experiments using thirteen LLMs and five case studies to identify optimal
strategies for production-grade automation. Performance is measured using a
penalized scoring framework that combines reliability with code quality (SAT),
structural integrity (DST), and executability (PCT). The Hybrid approach
emerges as the optimal generative method, achieving a 78.5% success rate with
robust quality scores (SAT: 6.79, DST: 7.67, PCT: 7.76). This significantly
outperforms the LLM-only (66.2% success) and Direct (29.2% success) methods.
Our findings show that reliability, not intrinsic code quality, is the primary
differentiator. Cost-effectiveness analysis reveals the Hybrid method is over
twice as efficient as Direct prompting per successful DAG. We conclude that a
structured, hybrid approach is essential for balancing flexibility and
reliability in automated workflow generation, offering a viable path to
democratize data pipeline development.
Ссылки и действия
Дополнительные ресурсы: