A State-of-the-Art SQL Reasoning Model using RLVR

2509.21459v1 cs.CL, cs.AI, cs.DB, cs.LG 2025-09-30
Авторы:

Alnur Ali, Ashutosh Baheti, Jonathan Chang, Ta-Chung Chi, Brandon Cui, Andrew Drozdov, Jonathan Frankle, Abhay Gupta, Pallavi Koppol, Sean Kulinski, Jonathan Li, Dipendra Misra, Krista Opsahl-Ong, Jose Javier Gonzalez Ortiz, Matei Zaharia, Yue Zhang

Резюме на русском

## Контекст В последние годы появилось много работ по искусству генерирования языка, но ряд проблем остается неразрешенным. Одна из них — преобразование запросов на естественном языке в SQL-запросы. Несмотря на существование множества готовых решений, таких как SQLGen и BERT-based models, они не всегда подходят для индивидуальных потребностей бизнеса. Например, организации часто вынуждены использовать стандартные модели, не приспособленные к их определенным бизнес-требованиям. Другая проблема — высокий уровень ошибок в сгенерированных SQL-запросах. Существующие модели часто не учитывают особенности конкретных бизнес-данных, что приводит к неточностям и неэффективности. Мотивированные этим проблемами, авторы предлагают новую модель, основанную на Reinforcement Learning with Verifiable Rewards (RLVR), которая позволяет решать эти задачи с большей точностью и универсальностью. ## Метод Разработанная модель основывается на Reinforcement Learning with Verifiable Rewards (RLVR), позволяющем учитывать организационные знания и повысить точность решений. Методология включает в себя следующие этапы: 1. **Оффлайн-обучение**: Использование тактики TAO (Training with Augmented Observations) для начального воспитания модели. 2. **Онлайн-обучение**: Обучение с RLVR, где модель получает верифицируемую награду за точный результат. 3. **Простота архитектуры**: Нет использования дополнительных данных отличных от стандартного BIRD-специфичного датасета, а также отсутствует зависимость от проприетарных моделей. 4. **Простота интеграции**: Модель работает как простой, но эффективный фреймворк, без ненужных сложностей. Эти подходы обеспечивают высокую адаптивность модели к различным бизнес-требованиям. ## Результаты Авторы проверили свою модель на BIRD-бенчмарке, который измеряет точность преобразования естественного языка в SQL. Без дополнительных данных, но с оптимальным выбором моделей и предложений, модель достигла следующих результатов: - **Без самостоятельной консистенции**: 73.56% точность. - **С самостоятельной консистенцией**: 75.68% точность, при этом требуя меньшего количества повторных попыток по сравнению с ближайшим конкурентом. Эти результаты показывают высокую точность и эффективность модели, которая демонстрирует лучшие результаты по сравнению с другими подходами на рынке. ## Значимость Модель имеет широкое применение в сферах, таких как бизнес-аналитика, данные science и автоматизация кода. Ее преимущества заключаются в: - **Точность**: Она подходит для бизнеса, так как учитывает конкретные требования и данные. - **Универсальность**: Может быть использована в различных сферах бе

Abstract

Developing custom reasoning models via Reinforcement Learning (RL) that can incorporate organization-specific knowledge has great potential to address problems faced by enterprise customers. In many of these problems, the reward function is verifiable, a setting termed RL with Verifiable Rewards (RLVR). We apply RLVR to a popular data science benchmark called BIRD that measures the ability of an AI agent to convert a natural language query for a database to SQL executions. We apply a simple and general-purpose training recipe involving careful prompt and model selection, a warm-up stage using our offline RL approach called TAO, followed by rigorous online RLVR training. With no additional training data beyond the BIRD training set and no use of proprietary models, our very first submission to the BIRD leaderboard reached state-of-the-art accuracy on the private test set: 73.56% without self-consistency and 75.68% with self-consistency. In the latter case, our model also required fewer generations than the second-best approach. While BIRD is only a proxy task, the simplicity of our framework makes it broadly applicable to enterprise domains such as business intelligence, data science, and coding.

Ссылки и действия

Связанные статьи

Evaluating NL2SQL via SQL2NL

## Контекст Область исследования заключается в выводе запросов SQL на основе естественного языка (NL2SQL). Эта область и...

2025-09-09

Database Entity Recognition with Data Augmentation and Deep Learning

#### Контекст Базы данных (DB) играют ключевую роль в современных системах управления информацией, но их интерактивность...

2025-08-29