📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Alnur Ali, Ashutosh Baheti, Jonathan Chang, Ta-Chung Chi, Brandon Cui, Andrew Drozdov, Jonathan Frankle, Abhay Gupta, Pallavi Koppol, Sean Kulinski, Jonathan Li, Dipendra Misra, Krista Opsahl-Ong, Jose Javier Gonzalez Ortiz, Matei Zaharia, Yue Zhang
## Контекст
В последние годы появилось много работ по искусству генерирования языка, но ряд проблем остается неразрешенным. Одна из них — преобразование запросов на естественном языке в SQL-запросы. Несмотря на существование множества готовых решений, таких как SQLGen и BERT-based models, они не всегда подходят для индивидуальных потребностей бизнеса. Например, организации часто вынуждены использовать стандартные модели, не приспособленные к их определенным бизнес-требованиям. Другая проблема — высокий уровень ошибок в сгенерированных SQL-запросах. Существующие модели часто не учитывают особенности конкретных бизнес-данных, что приводит к неточностям и неэффективности. Мотивированные этим проблемами, авторы предлагают новую модель, основанную на Reinforcement Learning with Verifiable Rewards (RLVR), которая позволяет решать эти задачи с большей точностью и универсальностью.
## Метод
Разработанная модель основывается на Reinforcement Learning with Verifiable Rewards (RLVR), позволяющем учитывать организационные знания и повысить точность решений. Методология включает в себя следующие этапы:
1. **Оффлайн-обучение**: Использование тактики TAO (Training with Augmented Observations) для начального воспитания модели.
2. **Онлайн-обучение**: Обучение с RLVR, где модель получает верифицируемую награду за точный результат.
3. **Простота архитектуры**: Нет использования дополнительных данных отличных от стандартного BIRD-специфичного датасета, а также отсутствует зависимость от проприетарных моделей.
4. **Простота интеграции**: Модель работает как простой, но эффективный фреймворк, без ненужных сложностей.
Эти подходы обеспечивают высокую адаптивность модели к различным бизнес-требованиям.
## Результаты
Авторы проверили свою модель на BIRD-бенчмарке, который измеряет точность преобразования естественного языка в SQL. Без дополнительных данных, но с оптимальным выбором моделей и предложений, модель достигла следующих результатов:
- **Без самостоятельной консистенции**: 73.56% точность.
- **С самостоятельной консистенцией**: 75.68% точность, при этом требуя меньшего количества повторных попыток по сравнению с ближайшим конкурентом.
Эти результаты показывают высокую точность и эффективность модели, которая демонстрирует лучшие результаты по сравнению с другими подходами на рынке.
## Значимость
Модель имеет широкое применение в сферах, таких как бизнес-аналитика, данные science и автоматизация кода. Ее преимущества заключаются в:
- **Точность**: Она подходит для бизнеса, так как учитывает конкретные требования и данные.
- **Универсальность**: Может быть использована в различных сферах бе
Annotation:
Developing custom reasoning models via Reinforcement Learning (RL) that can
incorporate organization-specific knowledge has great potential to address
problems faced by enterprise customers. In many of these problems, the reward
function is verifiable, a setting termed RL with Verifiable Rewards (RLVR). We
apply RLVR to a popular data science benchmark called BIRD that measures the
ability of an AI agent to convert a natural language query for a database to
SQL executions. We apply a simple and ...
📄 Evaluating NL2SQL via SQL2NL
2025-09-09Авторы:
Mohammadtaher Safarzadeh, Afshin Oroojlooyjadid, Dan Roth
## Контекст
Область исследования заключается в выводе запросов SQL на основе естественного языка (NL2SQL). Эта область играет ключевую роль в создании интеллектуальных систем, позволяющих пользователям взаимодействовать с базами данных с помощью природного языка. Однако существуют серьезные проблемы, связанные с оценкой результатов NL2SQL-моделей на робастность в условиях лингвистических различий. Несмотря на то, что многие бенчмарки измеряют общую точность NL2SQL-моделей, они недостаточно учитывают различные виды лингвистических вариаций, таких как синонимические фразы, грамматические структуры и стилистические шаблоны. Это приводит к снижению надежности моделей в реальных условиях. Мотивация заключается в разработке метода, позволяющего систематически и контролируемо измерять лингвистическую генерализацию NL2SQL-моделей, чтобы лучше понять их реальные возможности.
## Метод
Разработан фреймворк для генерации целенаправленных парафразированных версий SQL-запросов с использованием NL-to-SQL (SQL2NL) моделей. Этот фреймворк гарантирует, что парафразы сохраняют оригинальный смысл и соответствие схеме базы данных. Чтобы измерить лингвистическую генерализацию, парафразы используются для оценки NL2SQL-моделей, включая модели с разным объемом параметров. Технический подход включает в себя автоматизированные механизмы синтаксического и семантического анализа, чтобы обеспечить сохранение структуры SQL-запросов при генерации парафразов. Эта схема позволяет визуализировать робастность моделей к лингвистическим вариациям в изоляции, не затрагивая другие факторы, такие как схемные персистуирования.
## Результаты
Используя разработанный фреймворк, проведены эксперименты на нескольких датасетах, включая Spider. Результаты показали, что самые современные модели, такие как LLaMa3.3-70B, имеют существенную уязвимость к лингвистическим вариациям. Например, LLaMa3.3-70B испытала убывание точности выполнения SQL-запросов на 10.23% при работе с парафразом Spider, а LLaMa3.1-8B — на 19.4%. Наиболее эффективные модели с меньшим числом параметров также оказались более чувствительными к лингвистическим вариациям. Эксперименты также показали, что робастность к вариациям значительно варьируется в зависимости от сложности запросов, выбранного датасета и домена. Это демонстрирует необходимость в разработке более систематичных методов оценки лингвистической генерализации NL2SQL-моделей.
## Значимость
Результаты этой работы имеют перспективу применения в с
Annotation:
Robust evaluation in the presence of linguistic variation is key to
understanding the generalization capabilities of Natural Language to SQL
(NL2SQL) models, yet existing benchmarks rarely address this factor in a
systematic or controlled manner. We propose a novel schema-aligned paraphrasing
framework that leverages SQL-to-NL (SQL2NL) to automatically generate
semantically equivalent, lexically diverse queries while maintaining alignment
with the original schema and intent. This enables the fir...
Авторы:
Zikun Fu, Chen Yang, Kourosh Davoudi, Ken Q. Pu
#### Контекст
Базы данных (DB) играют ключевую роль в современных системах управления информацией, но их интерактивность часто ограничена сложностью языка запросов и нехваткой эффективных инструментов для интерактивного взаимодействия. Нейросетевые модели, такие как Text-to-SQL, позволяют трансформировать естественный язык запросов в SQL-запросы, но выявление сущностей в тексте запросов (Database Entity Recognition, DB-ER) остается сложной задачей. Недостаток качественных данных, требуемых для обучения моделей DB-ER, затрудняет прогресс в этой области. Целью настоящей работы является развитие эффективных методов для DB-ER, оптимизированных для естественных языковых запросов.
#### Метод
Мы предложили многоуровневый подход для улучшения DB-ER. В качестве основы использовался сочетаний полнотекстовых текстов запросов и их связанных SQL-запросов, доступных в популярных Text-to-SQL бенчмарках. Мы разработали процедуру автоматической аннотации текстов запросов, используя их соответствующие SQL-запросы. Для реализации модели DB-ER использовалась модель T5, которая была приспособлена для двух задач: последовательной меткочтению (sequence tagging) и классификации токенов (token classification). Модель была тщательно тренирована и подкорректирована с использованием данных, полученных в результате разработанной процедуры автоматической аннотации.
#### Результаты
Мы провели эксперименты с нашей моделью DB-ER, сравнив её с двумя современными моделями NER на двух метриках: точности и рекурсии. Наши результаты показали, что модель T5-based DB-ER выдаёт лучшие результаты на обоих метриках. Выполненная абляционная оценка показала, что автоматическая аннотация на основе SQL-запросов повысила точность и рекурсию на 10%, а оптимизация модели T5 улучшила эти метрики на 5-10%. Эти результаты демонстрируют эффективность разработанного подхода в улучшении выделения сущностей в естественных языковых запросах.
#### Значимость
Разработанный подход имеет широкое применение в сфере естественного языка и баз данных, включая поиска информации, веб-интерфейсы, роботов-консультантов и другие системы, требующие взаимодействия с базами данных. Основное преимущество этого подхода заключается в том, что он позволяет значительно улучшить точность и рекурсию моделей DB-ER, что в свою очередь приводит к эффективному интерактивному взаимодействию с базами данных. Это может способствовать расширению применения текстовых запросов к базам данных, улучшить качество систем поддержки решений и обогатить возможности интерактивного анализа данных.
#### Выводы
Мы успешно разработали и оценили метод для выделения сущностей в
Annotation:
This paper addresses the challenge of Database Entity Recognition (DB-ER) in
Natural Language Queries (NLQ). We present several key contributions to advance
this field: (1) a human-annotated benchmark for DB-ER task, derived from
popular text-to-sql benchmarks, (2) a novel data augmentation procedure that
leverages automatic annotation of NLQs based on the corresponding SQL queries
which are available in popular text-to-SQL benchmarks, (3) a specialized
language model based entity recognition mo...