CRED-SQL: Enhancing Real-world Large Scale Database Text-to-SQL Parsing through Cluster Retrieval and Execution Description

2508.12769v3 cs.CL, cs.AI 2025-08-21

Авторы:

Shaoming Duan, Zirui Wang, Chuanyi Liu, Zhibin Zhu, Yuhao Zhang, Peiyi Han, Liang Yan, Zewu Peng

Резюме на русском

## Контекст Текстово-к SQL-парсинг (Text-to-SQL) является ключевым заданием в области естественного общения с базами данных, становясь все более важной для пользователей без технических навыков. Несмотря на то, что новые технологии глубокого обучения, такие как текстовые генеративные модели, позволили значительно повысить точность таких систем, они продолжают сталкиваться с систематическими проблемами в области семантического соответствия между естественным языком (NLQ) и соответствующими SQL-запросами. Эти проблемы усиливаются в больших, кросс-доменных базах данных, где сильно различаются семантические атрибуты, что затрудняет связь схемы и приводит к семантическому сдвигу во время генерации SQL-запросов. Эти ограничения могут привести к уменьшению точности и надежности таких систем. Мы предлагаем CRED-SQL, новую фреймворк, которая адресует эти проблемы, используя кластерную схему для поиска и оптимизации семантического соответствия между NLQ и SQL. ## Метод CRED-SQL основывается на кластерном подходе к схеме и применению нового естественного языка репрезентации, называемого Execution Description Language (EDL). В первом этапе CRED-SQL использует кластерную схему для извлечения связанных таблиц и столбцов, чтобы уменьшить семантический сдвиг и сравнение схемы. Во втором этапе CRED-SQL преобразует NLQ в Execution Description Language (EDL), чтобы сделать задачу более структурированной и уменьшить семантические несоответствия. Эта модель использует LLMs (Large Language Models) для обучения стадий Text-to-EDL и EDL-to-SQL. Это декомпозиция задачи позволяет получить более точные и целенаправленные результаты, улучшая итоговую точность генерации запросов. ## Результаты Для оценки эффективности CRED-SQL проводились испытания на двух кросс-доменных базах данных: SpiderUnion и BirdUnion. Эксперименты показали, что CRED-SQL достигает нового состояния искусства в полях точности и скорости работы в этих двух базах. Улучшения были связаны с эффективным кластерным подходом и реформулировкой в EDL, которая позволила уменьшить семантический сдвиг. Эксперименты также показали, что CRED-SQL лучше справляется с большими базами данных, где семантические проблемы являются особенно важными, улучшая точность по сравнению с другими подходами. ## Значимость CRED-SQL может быть применено в различных областях, где требуется перевод естественного языка в SQL, включая решение задач управления базами данных, анализ бизнес-данных и интеллектуальный поиск. Его главное преимущество заключается в сокращении семантического сдвига и повышении точности в больших базах данных. Благодаря этому модель может стать ключевым инструментом для оптимизации

Abstract

Recent advances in large language models (LLMs) have significantly improved the accuracy of Text-to-SQL systems. However, a critical challenge remains: the semantic mismatch between natural language questions (NLQs) and their corresponding SQL queries. This issue is exacerbated in large-scale databases, where semantically similar attributes hinder schema linking and semantic drift during SQL generation, ultimately reducing model accuracy. To address these challenges, we introduce CRED-SQL, a framework designed for large-scale databases that integrates Cluster Retrieval and Execution Description. CRED-SQL first performs cluster-based large-scale schema retrieval to pinpoint the tables and columns most relevant to a given NLQ, alleviating schema mismatch. It then introduces an intermediate natural language representation-Execution Description Language (EDL)-to bridge the gap between NLQs and SQL. This reformulation decomposes the task into two stages: Text-to-EDL and EDL-to-SQL, leveraging LLMs' strong general reasoning capabilities while reducing semantic deviation. Extensive experiments on two large-scale, cross-domain benchmarks-SpiderUnion and BirdUnion-demonstrate that CRED-SQL achieves new state-of-the-art (SOTA) performance, validating its effectiveness and scalability. Our code is available at https://github.com/smduan/CRED-SQL.git

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CRED-SQL: Enhancing Real-world Large Scale Database Text-to-SQL Parsing through Cluster Retrieval and Execution Description

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация