RubikSQL: Lifelong Learning Agentic Knowledge Base as an Industrial NL2SQL System

2508.17590v1 cs.DB, cs.AI, cs.CL, cs.MA, H.2.3; I.2.4; I.2.7 2025-08-27
Авторы:

Zui Chen, Han Li, Xinhao Zhang, Xiaoyu Chen, Chunyin Dong, Yifeng Wang, Xin Cai, Su Zhang, Ziqi Li, Chi Ding, Jinxu Li, Shuai Wang, Dousheng Zhao, Sanhai Gao, Guangyi Liu

Резюме на русском

## Контекст Новая тенденция в области развития системы NL2SQL (Natural Language to SQL) заключается в том, чтобы улучшить их качество в решении реальных проблем в области бизнеса, особенно в сфере энтерпрайзных приложений. Одним из главных ограничений является невозможность систем обрабатывать контекстные страницы реляционных баз данных, что приводит к отсутствию разбирательства в целевых терминах и неполном понимании запросов. Для развития эффективной системы NL2SQL необходимо спроектировать новую архитектуру, которая будет включать в себя управление знаниями, постоянное обучение и гибкость в настройке терминологии. Эти факторы в полной мере отражаются в существующих проблемах в области NL2SQL, включая сложность в учёте имплицитных намерений, необходимость учитывать доменные термины и специфику бизнеса, а также многоуровневые проблемы с грамматической структурой запросов. Таким образом, есть необходимость в разработке нового подхода, который мог бы удовлетворить потребности в решении этих проблем и повысить качество решения запросов в реальных условиях. ## Метод RubikSQL представляет собой новую архитектуру, которая предлагает расширенную систему NL2SQL, включающую в себя готовую к быстрому адаптированию знаний для жизненного обучения (lifelong learning). Основополагающей идеей является использование знаний, накопленных в значительных объёмах, для постоянного обновления знаний и глубокой понимания запросов. Архитектура RubikSQL включает в себя несколько ключевых этапов: 1. **Database Profiling**: Эта стадия заключается в сборе и анализе статистических данных из базы данных, чтобы получить полное представление о структуре базы данных, хранящихся в ней данных и их отношениях. 2. **Structured Information Extraction**: Здесь используются различные техники для извлечения структурированной информации из документов и текстовых запросов, чтобы получить терминологические и структурные выводы. 3. **Agentic Rule Mining**: Эта фаза предлагает автоматическую выявление и анализ правил, которые помогают преобразовать естественный язык в SQL-запросы. Это включает в себя поиск и анализ логических связей между данными и запросами. 4. **Chain-of-Thought (CoT)-Enhanced SQL Profiling**: RubikSQL использует методики цепного мышления (Chain-of-Thought) для повышения точности SQL-профилирования. Это позволяет строить более точные модели для преобразования естественного языка в SQL. 5. **Multi-Agent Workflow**: В этом этапе внедряется работа нескольких агентов, которые совместно обрабатывают запросы, применяя различные модели и знания, полученные на предыдущих этапах. Затем, эти агенты совместно принимают решения и качественно изготавливают SQL-запросы.

Abstract

We present RubikSQL, a novel NL2SQL system designed to address key challenges in real-world enterprise-level NL2SQL, such as implicit intents and domain-specific terminology. RubikSQL frames NL2SQL as a lifelong learning task, demanding both Knowledge Base (KB) maintenance and SQL generation. RubikSQL systematically builds and refines its KB through techniques including database profiling, structured information extraction, agentic rule mining, and Chain-of-Thought (CoT)-enhanced SQL profiling. RubikSQL then employs a multi-agent workflow to leverage this curated KB, generating accurate SQLs. RubikSQL achieves SOTA performance on both the KaggleDBQA and BIRD Mini-Dev datasets. Finally, we release the RubikBench benchmark, a new benchmark specifically designed to capture vital traits of industrial NL2SQL scenarios, providing a valuable resource for future research.

Ссылки и действия