GradeSQL: Outcome Reward Models for Ranking SQL Queries from Large Language Models
2509.01308v1
cs.AI, cs.CL, cs.DB
2025-09-05
Авторы:
Mattia Tritto, Giuseppe Farano, Dario Di Palma, Gaetano Rossiello, Fedelucio Narducci, Dharmashankar Subramanian, Tommaso Di Noia
Резюме на русском
#### Контекст
Текст-на-SQL — задача преобразования естественного языка в SQL-запросы — широко используется для обеспечения доступа к базам данных. Несмотря на значительные успехи в создании текстовых моделей, текущие текстовые модели Лунных Языков (LLMs) сталкиваются с трудностями при работе с сложными запросами, требующими точного соответствия пользовательского запроса структуре базы данных. Чтобы улучшить точность, используются такие тестируемые стратегии, как Best-of-N (BoN) и Majority Voting (Maj), которые полагаются на поверхностные характеристики, такие как синтаксическое соответствие или частота генерируемых запросов. Несмотря на эти усилия, текущие методы недостаточно эффективны для повышения точности сложных запросов. Наше исследование призвано сравнить и улучшить эти подходы с использованием более глубоких семантических моделей.
#### Метод
Мы разработали **Framework GradeSQL**, который включает в себя Outcome Reward Models (ORMs) для Text-to-SQL. ORMs используют семантические оценки, чтобы учитывать точность запроса не только синтаксически, но и семантически. Мы обучили ORMs с помощью моделей Qwen2, Granite3 и Llama3, используя бенчмарки BIRD и SPIDER. Оценка запросов выполнялась с использованием точности выполнения, то есть проверкой результатов выполнения SQL-запросов на базах данных. Мы изучили различные параметры, включая количество генерируемых запросов.
#### Результаты
Мы выполнили эксперименты, сравнив ORMs с Best-of-N и Majority Voting на двух бенчмарках. Оценка показала, что ORMs дают значительную пользу в сложных запросах: +4.33% на BIRD и +2.10% на SPIDER по сравнению с ex-BoN, и +2.91% на BIRD и +0.93% на SPIDER по сравнению с Maj. Мы также проанализировали поведение ORMs при увеличении количества генерируемых запросов, показав, что их выигрыш возрастает с увеличением данных. Результаты показали, что ORMs не только улучшают точность, но и более эффективны в сложных запросах, чем используемые сейчас техники.
#### Значимость
Результаты ORMs указывают, что And ORMs показали применение в различных контекстах, включая Text-to-SQL с большим количеством данных и сложных запросов. Их использование может улучшить текстовые модели Лунных Языков в глубине, а не только на поверхности. Мы также сделали вывод, что ORMs могут помочь сделать Text-to-SQL более доступным для пользователей с различным уровнем знаний SQL.
#### Выводы
Эксперименты показали, что ORMs являются эффективным способом улучшения точности Text-to-SQL моделей, особенно в сложных запросах. В дальнейших исследованиях мы планируем расширить нашу модель для работы с более сложными базами данных и провести эксперименты на более больши
Abstract
Text-to-SQL, the task of translating natural language questions into SQL
queries, has significantly advanced with the introduction of Large Language
Models (LLMs), broadening database accessibility for a wide range of users.
Despite substantial progress in generating valid SQL, current LLMs still
struggle with complex queries that require precise alignment between user
intent and the database schema. To mitigate this, test-time strategies such as
Best-of-N (BoN) and Majority Voting (Maj) are often employed, based on the
assumption that LLMs can generate correct answers but may require multiple
attempts. However, these methods rely on surface-level heuristics, selecting
either the syntactically correct query through execution-based BoN (ex-BoN) or
the most frequently generated query with Maj. Recently, Outcome Reward Models
(ORMs), which assign utility scores to generated outputs based on semantic
correctness, have emerged as a promising approach for better aligning model
predictions with user intent. Nevertheless, their application to Text-to-SQL
remains largely underexplored.
In this work, we evaluate ORMs as an effective heuristic for BoN, compare
them with ex-BoN and Maj, and introduce a framework for training ORMs for the
Text-to-SQL task. We evaluate our ORMs on the BIRD and SPIDER benchmarks,
finetuning various open-source LLMs, including the Qwen2, Granite3, and Llama3
model families. Our results show that ORMs outperform ex-BoN and Maj, achieving
execution accuracy gains of +4.33% (BIRD) and +2.10% (Spider) over ex-BoN, and
+2.91% (BIRD) and +0.93% (Spider) over Maj. We further demonstrate that
finetuning models already aligned with SQL generation, such as OmniSQL, yields
superior ORM performance. Additionally, we observe that ORMs achieve
competitive results on simple queries and benefit more from an increased number
of candidates compared to ex-BoN and Maj.
Ссылки и действия
Дополнительные ресурсы: