CRED-SQL: Enhancing Real-world Large Scale Database Text-to-SQL Parsing through Cluster Retrieval and Execution Description
2508.12769v3
cs.CL, cs.AI
2025-08-21
Авторы:
Shaoming Duan, Zirui Wang, Chuanyi Liu, Zhibin Zhu, Yuhao Zhang, Peiyi Han, Liang Yan, Zewu Peng
Резюме на русском
## Контекст
Текстово-к SQL-парсинг (Text-to-SQL) является ключевым заданием в области естественного общения с базами данных, становясь все более важной для пользователей без технических навыков. Несмотря на то, что новые технологии глубокого обучения, такие как текстовые генеративные модели, позволили значительно повысить точность таких систем, они продолжают сталкиваться с систематическими проблемами в области семантического соответствия между естественным языком (NLQ) и соответствующими SQL-запросами. Эти проблемы усиливаются в больших, кросс-доменных базах данных, где сильно различаются семантические атрибуты, что затрудняет связь схемы и приводит к семантическому сдвигу во время генерации SQL-запросов. Эти ограничения могут привести к уменьшению точности и надежности таких систем. Мы предлагаем CRED-SQL, новую фреймворк, которая адресует эти проблемы, используя кластерную схему для поиска и оптимизации семантического соответствия между NLQ и SQL.
## Метод
CRED-SQL основывается на кластерном подходе к схеме и применению нового естественного языка репрезентации, называемого Execution Description Language (EDL). В первом этапе CRED-SQL использует кластерную схему для извлечения связанных таблиц и столбцов, чтобы уменьшить семантический сдвиг и сравнение схемы. Во втором этапе CRED-SQL преобразует NLQ в Execution Description Language (EDL), чтобы сделать задачу более структурированной и уменьшить семантические несоответствия. Эта модель использует LLMs (Large Language Models) для обучения стадий Text-to-EDL и EDL-to-SQL. Это декомпозиция задачи позволяет получить более точные и целенаправленные результаты, улучшая итоговую точность генерации запросов.
## Результаты
Для оценки эффективности CRED-SQL проводились испытания на двух кросс-доменных базах данных: SpiderUnion и BirdUnion. Эксперименты показали, что CRED-SQL достигает нового состояния искусства в полях точности и скорости работы в этих двух базах. Улучшения были связаны с эффективным кластерным подходом и реформулировкой в EDL, которая позволила уменьшить семантический сдвиг. Эксперименты также показали, что CRED-SQL лучше справляется с большими базами данных, где семантические проблемы являются особенно важными, улучшая точность по сравнению с другими подходами.
## Значимость
CRED-SQL может быть применено в различных областях, где требуется перевод естественного языка в SQL, включая решение задач управления базами данных, анализ бизнес-данных и интеллектуальный поиск. Его главное преимущество заключается в сокращении семантического сдвига и повышении точности в больших базах данных. Благодаря этому модель может стать ключевым инструментом для оптимизации
Abstract
Recent advances in large language models (LLMs) have significantly improved
the accuracy of Text-to-SQL systems. However, a critical challenge remains: the
semantic mismatch between natural language questions (NLQs) and their
corresponding SQL queries. This issue is exacerbated in large-scale databases,
where semantically similar attributes hinder schema linking and semantic drift
during SQL generation, ultimately reducing model accuracy. To address these
challenges, we introduce CRED-SQL, a framework designed for large-scale
databases that integrates Cluster Retrieval and Execution Description. CRED-SQL
first performs cluster-based large-scale schema retrieval to pinpoint the
tables and columns most relevant to a given NLQ, alleviating schema mismatch.
It then introduces an intermediate natural language representation-Execution
Description Language (EDL)-to bridge the gap between NLQs and SQL. This
reformulation decomposes the task into two stages: Text-to-EDL and EDL-to-SQL,
leveraging LLMs' strong general reasoning capabilities while reducing semantic
deviation. Extensive experiments on two large-scale, cross-domain
benchmarks-SpiderUnion and BirdUnion-demonstrate that CRED-SQL achieves new
state-of-the-art (SOTA) performance, validating its effectiveness and
scalability. Our code is available at https://github.com/smduan/CRED-SQL.git
Ссылки и действия
Дополнительные ресурсы: