Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks
2508.07179v1
cs.CL, cs.AI, cs.DB
2025-08-13
Авторы:
Jiaqi Yin, Yi-Wei Chen, Meng-Lung Lee, Xiya Liu
Резюме на русском
## Контекст
В современных предприятиях развитие enterprise data pipelines становится все более сложным в связи с использованием множества языков программирования, сложных преобразований данных и многоязычностью. Эти факторы приводят к "семантическому расхождению" (semantic drift) между оригинальными метаданными и окончательными данными, что снижает эффективность таких систем, как Retrieval-Augmented Generation (RAG) и Text-to-SQL. Без точного понимания структуры и преобразований в пайплайнах, предприятия сталкиваются с трудностями в управлении данными, гарантировании их реплицируемости и соблюдении нормативных требований. Наша мотивация заключается в разработке автоматизированных методов для извлечения информации о схеме (schema lineage) из мультиязычных пайплайнов, что позволит устранить эту проблему и обеспечить более точное управление данными.
## Метод
Мы предлагаем многоязычный фреймворк для извлечения детальной схемы линейки (schema lineage) из скриптов пайплайнов. Методология основывается на четырёх основных компонентах: source schemas (исходные схемы), source tables (исходные таблицы), transformation logic (логика преобразований) и aggregation operations (агрегационные операции). Метод определяет структурные и семантические аспекты каждого компонента, превращая их в стандартизированный вид, который достаточно точен для анализа и управления. Также мы представляем новую метрику Schema Lineage Composite Evaluation (SLiCE) для оценки качества извлечённых данных с целью проверки их структурной и семантической точности.
## Результаты
Мы провели эксперименты с использованием 1,700 manuаlly аnnotated lineages из реальных промышленных скриптов. Наши тесты отражают как структурную точность, так и семантическую фаильность. Мы разбили эксперименты на 12 языковых моделей, начиная от small language models (SLMs) с 1.3B параметров до large language models (LLMs), таких как GPT-4o и GPT-4.1. Результаты показывают, что более крупные модели с большим количеством параметров показывают лучшие результаты, особенно в смешанных условиях с различным размером данных и сложностью задач. Особенно заметны преимущества 32B open-source model, который, используя один резолюционный трасс, может достичь результатов, сравнимых с GPT-series, при использовании стандартных методов подсказок (prompting techniques).
## Значимость
Наше решение открывает широкие возможности для применения в сферах, таких как Retrieval-Augmented Generation (RAG), Text-to-SQL, и другие системы, требующие точного понимания данных. Оно обеспечивает улучшенную транспарентность пайплайнов, повышает эффективность гуманных ресурсов, значительно уменьшая время, потраченное на поиск и устранение ошибок. Это также может сыграть ключевую роль в обес
Abstract
Enterprise data pipelines, characterized by complex transformations across
multiple programming languages, often cause a semantic disconnect between
original metadata and downstream data. This "semantic drift" compromises data
reproducibility and governance, and impairs the utility of services like
retrieval-augmented generation (RAG) and text-to-SQL systems. To address this,
a novel framework is proposed for the automated extraction of fine-grained
schema lineage from multilingual enterprise pipeline scripts. This method
identifies four key components: source schemas, source tables, transformation
logic, and aggregation operations, creating a standardized representation of
data transformations. For the rigorous evaluation of lineage quality, this
paper introduces the Schema Lineage Composite Evaluation (SLiCE), a metric that
assesses both structural correctness and semantic fidelity. A new benchmark is
also presented, comprising 1,700 manually annotated lineages from real-world
industrial scripts. Experiments were conducted with 12 language models, from
1.3B to 32B small language models (SLMs) to large language models (LLMs) like
GPT-4o and GPT-4.1. The results demonstrate that the performance of schema
lineage extraction scales with model size and the sophistication of prompting
techniques. Specially, a 32B open-source model, using a single reasoning trace,
can achieve performance comparable to the GPT series under standard prompting.
This finding suggests a scalable and economical approach for deploying
schema-aware agents in practical applications.
Ссылки и действия
Дополнительные ресурсы: