📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A State-of-the-Art SQL Reasoning Model using RLVR

2025-09-30

Авторы:

Alnur Ali, Ashutosh Baheti, Jonathan Chang, Ta-Chung Chi, Brandon Cui, Andrew Drozdov, Jonathan Frankle, Abhay Gupta, Pallavi Koppol, Sean Kulinski, Jonathan Li, Dipendra Misra, Krista Opsahl-Ong, Jose Javier Gonzalez Ortiz, Matei Zaharia, Yue Zhang

## Контекст В последние годы появилось много работ по искусству генерирования языка, но ряд проблем остается неразрешенным. Одна из них — преобразование запросов на естественном языке в SQL-запросы. Несмотря на существование множества готовых решений, таких как SQLGen и BERT-based models, они не всегда подходят для индивидуальных потребностей бизнеса. Например, организации часто вынуждены использовать стандартные модели, не приспособленные к их определенным бизнес-требованиям. Другая проблема — высокий уровень ошибок в сгенерированных SQL-запросах. Существующие модели часто не учитывают особенности конкретных бизнес-данных, что приводит к неточностям и неэффективности. Мотивированные этим проблемами, авторы предлагают новую модель, основанную на Reinforcement Learning with Verifiable Rewards (RLVR), которая позволяет решать эти задачи с большей точностью и универсальностью. ## Метод Разработанная модель основывается на Reinforcement Learning with Verifiable Rewards (RLVR), позволяющем учитывать организационные знания и повысить точность решений. Методология включает в себя следующие этапы: 1. **Оффлайн-обучение**: Использование тактики TAO (Training with Augmented Observations) для начального воспитания модели. 2. **Онлайн-обучение**: Обучение с RLVR, где модель получает верифицируемую награду за точный результат. 3. **Простота архитектуры**: Нет использования дополнительных данных отличных от стандартного BIRD-специфичного датасета, а также отсутствует зависимость от проприетарных моделей. 4. **Простота интеграции**: Модель работает как простой, но эффективный фреймворк, без ненужных сложностей. Эти подходы обеспечивают высокую адаптивность модели к различным бизнес-требованиям. ## Результаты Авторы проверили свою модель на BIRD-бенчмарке, который измеряет точность преобразования естественного языка в SQL. Без дополнительных данных, но с оптимальным выбором моделей и предложений, модель достигла следующих результатов: - **Без самостоятельной консистенции**: 73.56% точность. - **С самостоятельной консистенцией**: 75.68% точность, при этом требуя меньшего количества повторных попыток по сравнению с ближайшим конкурентом. Эти результаты показывают высокую точность и эффективность модели, которая демонстрирует лучшие результаты по сравнению с другими подходами на рынке. ## Значимость Модель имеет широкое применение в сферах, таких как бизнес-аналитика, данные science и автоматизация кода. Ее преимущества заключаются в: - **Точность**: Она подходит для бизнеса, так как учитывает конкретные требования и данные. - **Универсальность**: Может быть использована в различных сферах бе

Annotation:

Developing custom reasoning models via Reinforcement Learning (RL) that can incorporate organization-specific knowledge has great potential to address problems faced by enterprise customers. In many of these problems, the reward function is verifiable, a setting termed RL with Verifiable Rewards (RLVR). We apply RLVR to a popular data science benchmark called BIRD that measures the ability of an AI agent to convert a natural language query for a database to SQL executions. We apply a simple and ...

ID: 2509.21459v1 cs.CL, cs.AI, cs.DB, cs.LG

arXiv PDF

📄 Evaluating NL2SQL via SQL2NL

2025-09-09

Авторы:

Mohammadtaher Safarzadeh, Afshin Oroojlooyjadid, Dan Roth

## Контекст Область исследования заключается в выводе запросов SQL на основе естественного языка (NL2SQL). Эта область играет ключевую роль в создании интеллектуальных систем, позволяющих пользователям взаимодействовать с базами данных с помощью природного языка. Однако существуют серьезные проблемы, связанные с оценкой результатов NL2SQL-моделей на робастность в условиях лингвистических различий. Несмотря на то, что многие бенчмарки измеряют общую точность NL2SQL-моделей, они недостаточно учитывают различные виды лингвистических вариаций, таких как синонимические фразы, грамматические структуры и стилистические шаблоны. Это приводит к снижению надежности моделей в реальных условиях. Мотивация заключается в разработке метода, позволяющего систематически и контролируемо измерять лингвистическую генерализацию NL2SQL-моделей, чтобы лучше понять их реальные возможности. ## Метод Разработан фреймворк для генерации целенаправленных парафразированных версий SQL-запросов с использованием NL-to-SQL (SQL2NL) моделей. Этот фреймворк гарантирует, что парафразы сохраняют оригинальный смысл и соответствие схеме базы данных. Чтобы измерить лингвистическую генерализацию, парафразы используются для оценки NL2SQL-моделей, включая модели с разным объемом параметров. Технический подход включает в себя автоматизированные механизмы синтаксического и семантического анализа, чтобы обеспечить сохранение структуры SQL-запросов при генерации парафразов. Эта схема позволяет визуализировать робастность моделей к лингвистическим вариациям в изоляции, не затрагивая другие факторы, такие как схемные персистуирования. ## Результаты Используя разработанный фреймворк, проведены эксперименты на нескольких датасетах, включая Spider. Результаты показали, что самые современные модели, такие как LLaMa3.3-70B, имеют существенную уязвимость к лингвистическим вариациям. Например, LLaMa3.3-70B испытала убывание точности выполнения SQL-запросов на 10.23% при работе с парафразом Spider, а LLaMa3.1-8B — на 19.4%. Наиболее эффективные модели с меньшим числом параметров также оказались более чувствительными к лингвистическим вариациям. Эксперименты также показали, что робастность к вариациям значительно варьируется в зависимости от сложности запросов, выбранного датасета и домена. Это демонстрирует необходимость в разработке более систематичных методов оценки лингвистической генерализации NL2SQL-моделей. ## Значимость Результаты этой работы имеют перспективу применения в с

Annotation:

Robust evaluation in the presence of linguistic variation is key to understanding the generalization capabilities of Natural Language to SQL (NL2SQL) models, yet existing benchmarks rarely address this factor in a systematic or controlled manner. We propose a novel schema-aligned paraphrasing framework that leverages SQL-to-NL (SQL2NL) to automatically generate semantically equivalent, lexically diverse queries while maintaining alignment with the original schema and intent. This enables the fir...

ID: 2509.04657v1 cs.CL, cs.AI, cs.DB, cs.LG

arXiv PDF

📄 Database Entity Recognition with Data Augmentation and Deep Learning

2025-08-29

Авторы:

Zikun Fu, Chen Yang, Kourosh Davoudi, Ken Q. Pu

#### Контекст Базы данных (DB) играют ключевую роль в современных системах управления информацией, но их интерактивность часто ограничена сложностью языка запросов и нехваткой эффективных инструментов для интерактивного взаимодействия. Нейросетевые модели, такие как Text-to-SQL, позволяют трансформировать естественный язык запросов в SQL-запросы, но выявление сущностей в тексте запросов (Database Entity Recognition, DB-ER) остается сложной задачей. Недостаток качественных данных, требуемых для обучения моделей DB-ER, затрудняет прогресс в этой области. Целью настоящей работы является развитие эффективных методов для DB-ER, оптимизированных для естественных языковых запросов. #### Метод Мы предложили многоуровневый подход для улучшения DB-ER. В качестве основы использовался сочетаний полнотекстовых текстов запросов и их связанных SQL-запросов, доступных в популярных Text-to-SQL бенчмарках. Мы разработали процедуру автоматической аннотации текстов запросов, используя их соответствующие SQL-запросы. Для реализации модели DB-ER использовалась модель T5, которая была приспособлена для двух задач: последовательной меткочтению (sequence tagging) и классификации токенов (token classification). Модель была тщательно тренирована и подкорректирована с использованием данных, полученных в результате разработанной процедуры автоматической аннотации. #### Результаты Мы провели эксперименты с нашей моделью DB-ER, сравнив её с двумя современными моделями NER на двух метриках: точности и рекурсии. Наши результаты показали, что модель T5-based DB-ER выдаёт лучшие результаты на обоих метриках. Выполненная абляционная оценка показала, что автоматическая аннотация на основе SQL-запросов повысила точность и рекурсию на 10%, а оптимизация модели T5 улучшила эти метрики на 5-10%. Эти результаты демонстрируют эффективность разработанного подхода в улучшении выделения сущностей в естественных языковых запросах. #### Значимость Разработанный подход имеет широкое применение в сфере естественного языка и баз данных, включая поиска информации, веб-интерфейсы, роботов-консультантов и другие системы, требующие взаимодействия с базами данных. Основное преимущество этого подхода заключается в том, что он позволяет значительно улучшить точность и рекурсию моделей DB-ER, что в свою очередь приводит к эффективному интерактивному взаимодействию с базами данных. Это может способствовать расширению применения текстовых запросов к базам данных, улучшить качество систем поддержки решений и обогатить возможности интерактивного анализа данных. #### Выводы Мы успешно разработали и оценили метод для выделения сущностей в

Annotation:

This paper addresses the challenge of Database Entity Recognition (DB-ER) in Natural Language Queries (NLQ). We present several key contributions to advance this field: (1) a human-annotated benchmark for DB-ER task, derived from popular text-to-sql benchmarks, (2) a novel data augmentation procedure that leverages automatic annotation of NLQs based on the corresponding SQL queries which are available in popular text-to-SQL benchmarks, (3) a specialized language model based entity recognition mo...

ID: 2508.19372v1 cs.CL, cs.AI, cs.DB, cs.LG

arXiv PDF