GradeSQL: Outcome Reward Models for Ranking SQL Queries from Large Language Models

2509.01308v1 cs.AI, cs.CL, cs.DB 2025-09-05

Авторы:

Mattia Tritto, Giuseppe Farano, Dario Di Palma, Gaetano Rossiello, Fedelucio Narducci, Dharmashankar Subramanian, Tommaso Di Noia

Резюме на русском

#### Контекст Текст-на-SQL — задача преобразования естественного языка в SQL-запросы — широко используется для обеспечения доступа к базам данных. Несмотря на значительные успехи в создании текстовых моделей, текущие текстовые модели Лунных Языков (LLMs) сталкиваются с трудностями при работе с сложными запросами, требующими точного соответствия пользовательского запроса структуре базы данных. Чтобы улучшить точность, используются такие тестируемые стратегии, как Best-of-N (BoN) и Majority Voting (Maj), которые полагаются на поверхностные характеристики, такие как синтаксическое соответствие или частота генерируемых запросов. Несмотря на эти усилия, текущие методы недостаточно эффективны для повышения точности сложных запросов. Наше исследование призвано сравнить и улучшить эти подходы с использованием более глубоких семантических моделей. #### Метод Мы разработали **Framework GradeSQL**, который включает в себя Outcome Reward Models (ORMs) для Text-to-SQL. ORMs используют семантические оценки, чтобы учитывать точность запроса не только синтаксически, но и семантически. Мы обучили ORMs с помощью моделей Qwen2, Granite3 и Llama3, используя бенчмарки BIRD и SPIDER. Оценка запросов выполнялась с использованием точности выполнения, то есть проверкой результатов выполнения SQL-запросов на базах данных. Мы изучили различные параметры, включая количество генерируемых запросов. #### Результаты Мы выполнили эксперименты, сравнив ORMs с Best-of-N и Majority Voting на двух бенчмарках. Оценка показала, что ORMs дают значительную пользу в сложных запросах: +4.33% на BIRD и +2.10% на SPIDER по сравнению с ex-BoN, и +2.91% на BIRD и +0.93% на SPIDER по сравнению с Maj. Мы также проанализировали поведение ORMs при увеличении количества генерируемых запросов, показав, что их выигрыш возрастает с увеличением данных. Результаты показали, что ORMs не только улучшают точность, но и более эффективны в сложных запросах, чем используемые сейчас техники. #### Значимость Результаты ORMs указывают, что And ORMs показали применение в различных контекстах, включая Text-to-SQL с большим количеством данных и сложных запросов. Их использование может улучшить текстовые модели Лунных Языков в глубине, а не только на поверхности. Мы также сделали вывод, что ORMs могут помочь сделать Text-to-SQL более доступным для пользователей с различным уровнем знаний SQL. #### Выводы Эксперименты показали, что ORMs являются эффективным способом улучшения точности Text-to-SQL моделей, особенно в сложных запросах. В дальнейших исследованиях мы планируем расширить нашу модель для работы с более сложными базами данных и провести эксперименты на более больши

Abstract

Text-to-SQL, the task of translating natural language questions into SQL queries, has significantly advanced with the introduction of Large Language Models (LLMs), broadening database accessibility for a wide range of users. Despite substantial progress in generating valid SQL, current LLMs still struggle with complex queries that require precise alignment between user intent and the database schema. To mitigate this, test-time strategies such as Best-of-N (BoN) and Majority Voting (Maj) are often employed, based on the assumption that LLMs can generate correct answers but may require multiple attempts. However, these methods rely on surface-level heuristics, selecting either the syntactically correct query through execution-based BoN (ex-BoN) or the most frequently generated query with Maj. Recently, Outcome Reward Models (ORMs), which assign utility scores to generated outputs based on semantic correctness, have emerged as a promising approach for better aligning model predictions with user intent. Nevertheless, their application to Text-to-SQL remains largely underexplored. In this work, we evaluate ORMs as an effective heuristic for BoN, compare them with ex-BoN and Maj, and introduce a framework for training ORMs for the Text-to-SQL task. We evaluate our ORMs on the BIRD and SPIDER benchmarks, finetuning various open-source LLMs, including the Qwen2, Granite3, and Llama3 model families. Our results show that ORMs outperform ex-BoN and Maj, achieving execution accuracy gains of +4.33% (BIRD) and +2.10% (Spider) over ex-BoN, and +2.91% (BIRD) and +0.93% (Spider) over Maj. We further demonstrate that finetuning models already aligned with SQL generation, such as OmniSQL, yields superior ORM performance. Additionally, we observe that ORMs achieve competitive results on simple queries and benefit more from an increased number of candidates compared to ex-BoN and Maj.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

GradeSQL: Outcome Reward Models for Ranking SQL Queries from Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

DeepAnalyze: Agentic Large Language Models for Autonomous Data Science

Memory-QA: Answering Recall Questions Based on Multimodal Memories

Навигация