Evaluating NL2SQL via SQL2NL

2509.04657v1 cs.CL, cs.AI, cs.DB, cs.LG 2025-09-09
Авторы:

Mohammadtaher Safarzadeh, Afshin Oroojlooyjadid, Dan Roth

Резюме на русском

## Контекст Область исследования заключается в выводе запросов SQL на основе естественного языка (NL2SQL). Эта область играет ключевую роль в создании интеллектуальных систем, позволяющих пользователям взаимодействовать с базами данных с помощью природного языка. Однако существуют серьезные проблемы, связанные с оценкой результатов NL2SQL-моделей на робастность в условиях лингвистических различий. Несмотря на то, что многие бенчмарки измеряют общую точность NL2SQL-моделей, они недостаточно учитывают различные виды лингвистических вариаций, таких как синонимические фразы, грамматические структуры и стилистические шаблоны. Это приводит к снижению надежности моделей в реальных условиях. Мотивация заключается в разработке метода, позволяющего систематически и контролируемо измерять лингвистическую генерализацию NL2SQL-моделей, чтобы лучше понять их реальные возможности. ## Метод Разработан фреймворк для генерации целенаправленных парафразированных версий SQL-запросов с использованием NL-to-SQL (SQL2NL) моделей. Этот фреймворк гарантирует, что парафразы сохраняют оригинальный смысл и соответствие схеме базы данных. Чтобы измерить лингвистическую генерализацию, парафразы используются для оценки NL2SQL-моделей, включая модели с разным объемом параметров. Технический подход включает в себя автоматизированные механизмы синтаксического и семантического анализа, чтобы обеспечить сохранение структуры SQL-запросов при генерации парафразов. Эта схема позволяет визуализировать робастность моделей к лингвистическим вариациям в изоляции, не затрагивая другие факторы, такие как схемные персистуирования. ## Результаты Используя разработанный фреймворк, проведены эксперименты на нескольких датасетах, включая Spider. Результаты показали, что самые современные модели, такие как LLaMa3.3-70B, имеют существенную уязвимость к лингвистическим вариациям. Например, LLaMa3.3-70B испытала убывание точности выполнения SQL-запросов на 10.23% при работе с парафразом Spider, а LLaMa3.1-8B — на 19.4%. Наиболее эффективные модели с меньшим числом параметров также оказались более чувствительными к лингвистическим вариациям. Эксперименты также показали, что робастность к вариациям значительно варьируется в зависимости от сложности запросов, выбранного датасета и домена. Это демонстрирует необходимость в разработке более систематичных методов оценки лингвистической генерализации NL2SQL-моделей. ## Значимость Результаты этой работы имеют перспективу применения в с

Abstract

Robust evaluation in the presence of linguistic variation is key to understanding the generalization capabilities of Natural Language to SQL (NL2SQL) models, yet existing benchmarks rarely address this factor in a systematic or controlled manner. We propose a novel schema-aligned paraphrasing framework that leverages SQL-to-NL (SQL2NL) to automatically generate semantically equivalent, lexically diverse queries while maintaining alignment with the original schema and intent. This enables the first targeted evaluation of NL2SQL robustness to linguistic variation in isolation-distinct from prior work that primarily investigates ambiguity or schema perturbations. Our analysis reveals that state-of-the-art models are far more brittle than standard benchmarks suggest. For example, LLaMa3.3-70B exhibits a 10.23% drop in execution accuracy (from 77.11% to 66.9%) on paraphrased Spider queries, while LLaMa3.1-8B suffers an even larger drop of nearly 20% (from 62.9% to 42.5%). Smaller models (e.g., GPT-4o mini) are disproportionately affected. We also find that robustness degradation varies significantly with query complexity, dataset, and domain -- highlighting the need for evaluation frameworks that explicitly measure linguistic generalization to ensure reliable performance in real-world settings.

Ссылки и действия

Связанные статьи

A State-of-the-Art SQL Reasoning Model using RLVR

## Контекст В последние годы появилось много работ по искусству генерирования языка, но ряд проблем остается неразрешенн...

2025-09-30

Database Entity Recognition with Data Augmentation and Deep Learning

#### Контекст Базы данных (DB) играют ключевую роль в современных системах управления информацией, но их интерактивность...

2025-08-29