CRED-SQL: Enhancing Real-world Large Scale Database Text-to-SQL Parsing through Cluster Retrieval and Execution Description

2508.12769v2 cs.CL, cs.AI 2025-08-20

Авторы:

Shaoming Duan, Zirui Wang, Chuanyi Liu, Zhibin Zhu, Yuhao Zhang, Peiyi Han, Liang Yan, Zewu Penge

Резюме на русском

## Контекст Текстовые-SQL-системы (Text-to-SQL) широко применяются для автоматизации построения SQL-запросов на основе естественного языка (NLQ). Однако, несмотря на улучшения, достигнутые с помощью больших языковых моделей (LLMs), текстовые-SQL-системы сталкиваются с существенными проблемами. Одна из них — семантический разрыв между NLQ и соответствующим SQL-запросом, особенно в больших кросс-доменных базах данных. Этот разрыв приводит к схемной несовпадению (schema mismatch) и семантическому сдвигу (semantic drift) в процессе генерации SQL-запросов. Эти проблемы существенно снижают точность и надежность текстовых-SQL-систем в реальной среде. Мотивация для данного исследования заключается в развитии эффективного подхода, который уменьшает семантический разрыв и повышает точность текстовых-SQL-систем в крупных кросс-доменных базах данных. ## Метод CRED-SQL — это новый подход для решения проблем семантического разрыва в текстовых-SQL-системах. Он состоит из двух основных компонентов: кластерная реtь-схема (Cluster Retrieval) и интерфейс управления выполнением (Execution Description). 1. **Кластерная реtь-схема**: CRED-SQL использует кластеризацию для выявления наиболее подходящих таблиц и столбцов в большой базе данных, относящихся к заданному естественному языковому запросу. Это позволяет уменьшить схемную несовпаденность, связанную с большим числом атрибутов в крупных базах данных. 2. **Интерфейс управления выполнением**: CRED-SQL представляет естественному языку запроса в виде нового языка — Execution Description Language (EDL). Этот язык декомпозирует задачу на две подзадачи: текст-к-EDL и EDL-к-SQL. Это позволяет глубоко интерпретировать запросы с помощью LLMs, что уменьшает семантический сдвиг и повышает точность. ## Результаты Для оценки эффективности CRED-SQL проводились эксперименты на двух крупных кросс-доменных базах данных: SpiderUnion и BirdUnion. Результаты показали, что CRED-SQL превосходит нынешние лучшие решения в метриках точности (accuracy) и F1-меры. Также была проведена сравнительная оценка с другими подходами, и CRED-SQL демонстрирует существенное улучшение в семантической точности и скорости выполнения. Эти результаты подтверждают значительное преимущество CRED-SQL в области текстовых-SQL-систем для крупных кросс-доменных баз данных. ## Значимость CRED-SQL может применяться в различных областях, где требуется автоматизация построения SQL-запросов на основе естественного языка. Например, в системах управления базами данных, в системах аналитики данных и в системах поддержки принятия решений. Одним из главных преимуществ CRED-SQL является его способность эффективно работать с б

Abstract

Recent advances in large language models (LLMs) have significantly improved the accuracy of Text-to-SQL systems. However, a critical challenge remains: the semantic mismatch between natural language questions (NLQs) and their corresponding SQL queries. This issue is exacerbated in large-scale databases, where semantically similar attributes hinder schema linking and semantic drift during SQL generation, ultimately reducing model accuracy. To address these challenges, we introduce CRED-SQL, a framework designed for large-scale databases that integrates Cluster Retrieval and Execution Description. CRED-SQL first performs cluster-based large-scale schema retrieval to pinpoint the tables and columns most relevant to a given NLQ, alleviating schema mismatch. It then introduces an intermediate natural language representation-Execution Description Language (EDL)-to bridge the gap between NLQs and SQL. This reformulation decomposes the task into two stages: Text-to-EDL and EDL-to-SQL, leveraging LLMs' strong general reasoning capabilities while reducing semantic deviation. Extensive experiments on two large-scale, cross-domain benchmarks-SpiderUnion and BirdUnion-demonstrate that CRED-SQL achieves new state-of-the-art (SOTA) performance, validating its effectiveness and scalability. Our code is available at https://github.com/smduan/CRED-SQL.git

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CRED-SQL: Enhancing Real-world Large Scale Database Text-to-SQL Parsing through Cluster Retrieval and Execution Description

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация