📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 OsmT: Bridging OpenStreetMap Queries and Natural Language with Open-source Tag-aware Language Models

2025-12-06

Авторы:

Zhuoyue Wan, Wentao Hu, Chen Jason Zhang, Yuanfeng Song, Shuaimin Li, Ruiqiang Xiao, Xiao-Yong Wei, Raymond Chi-Wing Wong

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Bridging natural language and structured query languages is a long-standing challenge in the database community. While recent advances in language models have shown promise in this direction, existing solutions often rely on large-scale closed-source models that suffer from high inference costs, limited transparency, and lack of adaptability for lightweight deployment. In this paper, we present OsmT, an open-source tag-aware language model specifically designed to bridge natural language and Ove...

ID: 2512.04738v1 cs.CL, cs.AI, cs.DB

arXiv PDF

📄 Skeletons Matter: Dynamic Data Augmentation for Text-to-Query

2025-11-26

Авторы:

Yuchen Ji, Bo Xu, Jie Shi, Jiaqing Liang, Deqing Yang, Yu Mao, Hai Chen, Yanghua Xiao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The task of translating natural language questions into query languages has long been a central focus in semantic parsing. Recent advancements in Large Language Models (LLMs) have significantly accelerated progress in this field. However, existing studies typically focus on a single query language, resulting in methods with limited generalizability across different languages. In this paper, we formally define the Text-to-Query task paradigm, unifying semantic parsing tasks across various query l...

ID: 2511.18934v1 cs.CL, cs.AI, cs.DB

arXiv PDF

📄 BAPPA: Benchmarking Agents, Plans, and Pipelines for Automated Text-to-SQL Generation

2025-11-08

Авторы:

Fahim Ahmed, Md Mubtasim Ahasan, Jahir Sadik Monon, Muntasir Wahed, M Ashraful Amin, A K M Mahbubur Rahman, Amin Ahsan Ali

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Text-to-SQL systems provide a natural language interface that can enable even laymen to access information stored in databases. However, existing Large Language Models (LLM) struggle with SQL generation from natural instructions due to large schema sizes and complex reasoning. Prior work often focuses on complex, somewhat impractical pipelines using flagship models, while smaller, efficient models remain overlooked. In this work, we explore three multi-agent LLM pipelines, with systematic perfor...

ID: 2511.04153v1 cs.CL, cs.AI, cs.DB, cs.MA

arXiv PDF

📄 RUST-BENCH: Benchmarking LLM Reasoning on Unstructured Text within Structured Tables

2025-11-08

Авторы:

Nikhil Abhyankar, Purvi Chaurasia, Sanchit Kabra, Ananya Srivastava, Vivek Gupta, Chandan K. Reddy

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Existing tabular reasoning benchmarks mostly test models on small, uniform tables, underrepresenting the complexity of real-world data and giving an incomplete view of Large Language Models' (LLMs) reasoning abilities. Real tables are long, heterogeneous, and domain-specific, mixing structured fields with free text and requiring multi-hop reasoning across thousands of tokens. To address this gap, we introduce RUST-BENCH, a benchmark of 7966 questions from 2031 real-world tables spanning two doma...

ID: 2511.04491v1 cs.CL, cs.AI, cs.DB, cs.IR, cs.LG

arXiv PDF

📄 Do LLMs Align with My Task? Evaluating Text-to-SQL via Dataset Alignment

2025-10-08

Авторы:

Davood Rafiei, Morgan Lindsay Heisler, Weiwei Zhang, Mohammadreza Pourreza, Yong Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Supervised Fine-Tuning (SFT) is an effective method for adapting Large Language Models (LLMs) on downstream tasks. However, variability in training data can hinder a model's ability to generalize across domains. This paper studies the problem of dataset alignment for Natural Language to SQL (NL2SQL or text to SQL), examining how well SFT training data matches the structural characteristics of target queries and how this alignment impacts model performance. We hypothesize that alignment can be ac...

ID: 2510.04919v1 cs.CL, cs.AI, cs.DB

arXiv PDF

📄 Multilingual Text-to-SQL: Benchmarking the Limits of Language Models with Collaborative Language Agents

2025-10-01

Авторы:

Khanh Trinh Pham, Thu Huong Nguyen, Jun Jo, Quoc Viet Hung Nguyen, Thanh Tam Nguyen

## Контекст Область текстово-семантических запросов (Text-to-SQL) позволяет пользователям с естественным языком получать доступ к базам данных. Однако, большинство существующих бенчмарков ограничены исключительно английским языком, что существенно ограничивает возможности развития многоязычных технологий. Это ограничение создает проблему в реализации текстовых запросов на разных языках и стилях речи, что необходимо для оптимальной работы в многоязычных средах. Бенчмарк MultiSpider 2.0, расширенный из Spider 2.0, предлагает возможность работы на 8 языках (английский, немецкий, французский, испанский, португальский, японский, китайский, вьетнамский), сохраняя сложность Spider 2.0, но добавляя новые трудности связанные с языковыми различиями и диалектами. ## Метод MultiSpider 2.0 создан как расширение Spider 2.0 с целью исследования многоязычных возможностей текстовых запросов к базам данных. Он сохраняет сложность исходного бенчмарка, но добавляет новые трудности, связанные с многоязычностью. Разработчики пришли к выводу, что для успешного выполнения запросов необходимо усиленное разумение и контекстное понимание текста, что делает эту задачу более сложной, чем она могла показаться в предыдущих бенчмарках. Использование текстовых запросов на нескольких языках требует более глубокой интеллектуальной обработки и многоязычной модели, что открывает новые возможности для развития текстовых запросов. ## Результаты Эксперименты проводились на MultiSpider 2.0, использовались данные из Spider 2.0, а также дополнительные многоязычные данные, чтобы протестировать модели на многоязычность. Глубокие расширенные модели языка (LLM), такие как DeepSeek-R1 и OpenAI o1, показали только 4% точности выполнения запросов при использовании интринзического разума, в то время как на MultiSpider 1.0 эти модели достигли 60%. Это свидетельствует о существенном "многоязычном пробеле" в системах текстовых запросов к базам данных. Базовый подход, основанный на коллаборативных языковых агентах, позволил повысить точность до 15%, что является значительным улучшением, но все еще далеко от идеала. ## Значимость Результаты исследования показывают, что текстовый SQL бенчмарк MultiSpider 2.0 является важной ресурсной платформой для изучения проблем многоязычных текстовых запросов. Он может быть применен в различных областях, включая медицину, финансы, юриспруденцию и техническую поддержку. Бенчмарк предоставляет обширные возможности для разработчиков моделей, позволяя имитировать реальные сценарии, в которых необходима многоязычная инте

Annotation:

Text-to-SQL enables natural access to databases, yet most benchmarks are English-only, limiting multilingual progress. We introduce MultiSpider 2.0, extending Spider 2.0 to eight languages (English, German, French, Spanish, Portuguese, Japanese, Chinese, Vietnamese). It preserves Spider 2.0's structural difficulty while adding linguistic and dialectal variability, demanding deeper reasoning for complex SQL. On this benchmark, state-of-the-art LLMs (such as DeepSeek-R1 and OpenAI o1) reach only 4...

ID: 2509.24405v1 cs.CL, cs.AI, cs.DB, cs.ET, cs.IR

arXiv PDF

📄 A State-of-the-Art SQL Reasoning Model using RLVR

2025-09-30

Авторы:

Alnur Ali, Ashutosh Baheti, Jonathan Chang, Ta-Chung Chi, Brandon Cui, Andrew Drozdov, Jonathan Frankle, Abhay Gupta, Pallavi Koppol, Sean Kulinski, Jonathan Li, Dipendra Misra, Krista Opsahl-Ong, Jose Javier Gonzalez Ortiz, Matei Zaharia, Yue Zhang

## Контекст В последние годы появилось много работ по искусству генерирования языка, но ряд проблем остается неразрешенным. Одна из них — преобразование запросов на естественном языке в SQL-запросы. Несмотря на существование множества готовых решений, таких как SQLGen и BERT-based models, они не всегда подходят для индивидуальных потребностей бизнеса. Например, организации часто вынуждены использовать стандартные модели, не приспособленные к их определенным бизнес-требованиям. Другая проблема — высокий уровень ошибок в сгенерированных SQL-запросах. Существующие модели часто не учитывают особенности конкретных бизнес-данных, что приводит к неточностям и неэффективности. Мотивированные этим проблемами, авторы предлагают новую модель, основанную на Reinforcement Learning with Verifiable Rewards (RLVR), которая позволяет решать эти задачи с большей точностью и универсальностью. ## Метод Разработанная модель основывается на Reinforcement Learning with Verifiable Rewards (RLVR), позволяющем учитывать организационные знания и повысить точность решений. Методология включает в себя следующие этапы: 1. **Оффлайн-обучение**: Использование тактики TAO (Training with Augmented Observations) для начального воспитания модели. 2. **Онлайн-обучение**: Обучение с RLVR, где модель получает верифицируемую награду за точный результат. 3. **Простота архитектуры**: Нет использования дополнительных данных отличных от стандартного BIRD-специфичного датасета, а также отсутствует зависимость от проприетарных моделей. 4. **Простота интеграции**: Модель работает как простой, но эффективный фреймворк, без ненужных сложностей. Эти подходы обеспечивают высокую адаптивность модели к различным бизнес-требованиям. ## Результаты Авторы проверили свою модель на BIRD-бенчмарке, который измеряет точность преобразования естественного языка в SQL. Без дополнительных данных, но с оптимальным выбором моделей и предложений, модель достигла следующих результатов: - **Без самостоятельной консистенции**: 73.56% точность. - **С самостоятельной консистенцией**: 75.68% точность, при этом требуя меньшего количества повторных попыток по сравнению с ближайшим конкурентом. Эти результаты показывают высокую точность и эффективность модели, которая демонстрирует лучшие результаты по сравнению с другими подходами на рынке. ## Значимость Модель имеет широкое применение в сферах, таких как бизнес-аналитика, данные science и автоматизация кода. Ее преимущества заключаются в: - **Точность**: Она подходит для бизнеса, так как учитывает конкретные требования и данные. - **Универсальность**: Может быть использована в различных сферах бе

Annotation:

Developing custom reasoning models via Reinforcement Learning (RL) that can incorporate organization-specific knowledge has great potential to address problems faced by enterprise customers. In many of these problems, the reward function is verifiable, a setting termed RL with Verifiable Rewards (RLVR). We apply RLVR to a popular data science benchmark called BIRD that measures the ability of an AI agent to convert a natural language query for a database to SQL executions. We apply a simple and ...

ID: 2509.21459v1 cs.CL, cs.AI, cs.DB, cs.LG

arXiv PDF

📄 Play by the Type Rules: Inferring Constraints for LLM Functions in Declarative Programs

2025-09-26

Авторы:

Parker Glenn, Alfy Samuel, Daben Liu

## Контекст Интеграция LLM-powered operators в declarative query languages позволяет объединить дешевые и интерпретируемые функции с мощными, универсально применимыми моделями языка. Однако, для эффективного использования оптимизированной работы SQL-like языков запросов, выходные данные должны соответствовать правилам типизации и содержимому базы данных. Настоящие подходы решают эту проблему за счет сложных итераций LLM-based post-processing, которые не только увеличивают время выполнения, но и снижают производительность. В данном исследовании проводится исследование возможности различных размеров open-source language models для парсинга и выполнения функций в рамках SQL-based query languages, показывая, что небольшие language models могут значительно производительнее выполнять функции над мульти-источниковыми данными. Исследование также предлагает эффективное решение для обеспечения корректности типизации LLM-функций, показывая 7% улучшения точности и 53% ускорение во времени выполнения сравниваемых решений. ## Метод Для решения проблемы типизации LLM-функций взаимодействие с declarative query languages обеспечивается с помощью специализированной архитектуры, состоящей из двух основных компонентов: LLM-based executor и type checker. Первый компонент отвечает за выполнение функций, а второй — за проверку того, что они соответствуют типам данных в базе. Архитектура разработана таким образом, чтобы обеспечить оптимальный баланс между производительностью и точностью. Основной мотивацией является сокращение количества операций post-processing, которые традиционно используются для достижения соответствия типов. Для эффективности работы используется специализированный подход, который позволяет существенно уменьшить затраты времени на выполнение запросов, обеспечив в то же время их корректность. ## Результаты В ходе исследования проведено рядов экспериментов на разных размерах языковых моделей, включая small, medium и large. Эксперименты показали, что малые language models не только способны выполнять функции над hybrid data sources, но и демонстрируют высокую точность в парсинге и выполнении SQL-запросов. На датасете multi-hop question answering было продемонстрировано, что small language model показывает 7% более высокую точность по сравнению с более крупными моделями, при этом значительно сокращая latency. Также было продемонстрировано, что применение эффективного type checker позволяет увеличить точность на 53% в сравнении с другими подходами, при этом уменьшив время выполнения запросов. ## Значимость Полученные результаты имеют широкие области применения в сферах, где необходима производительная интеграция LLM с declarative query languages, таких как data integration, question answering, и data analytics. Используя мощь small language models, можно эффективно уменьшить latency при выполнении запросов, что становится ключе

Annotation:

Integrating LLM powered operators in declarative query languages allows for the combination of cheap and interpretable functions with powerful, generalizable language model reasoning. However, in order to benefit from the optimized execution of a database query language like SQL, generated outputs must align with the rules enforced by both type checkers and database contents. Current approaches address this challenge with orchestrations consisting of many LLM-based post-processing calls to ensur...

ID: 2509.20208v1 cs.CL, cs.AI, cs.DB

arXiv PDF

📄 Evaluating NL2SQL via SQL2NL

2025-09-09

Авторы:

Mohammadtaher Safarzadeh, Afshin Oroojlooyjadid, Dan Roth

## Контекст Область исследования заключается в выводе запросов SQL на основе естественного языка (NL2SQL). Эта область играет ключевую роль в создании интеллектуальных систем, позволяющих пользователям взаимодействовать с базами данных с помощью природного языка. Однако существуют серьезные проблемы, связанные с оценкой результатов NL2SQL-моделей на робастность в условиях лингвистических различий. Несмотря на то, что многие бенчмарки измеряют общую точность NL2SQL-моделей, они недостаточно учитывают различные виды лингвистических вариаций, таких как синонимические фразы, грамматические структуры и стилистические шаблоны. Это приводит к снижению надежности моделей в реальных условиях. Мотивация заключается в разработке метода, позволяющего систематически и контролируемо измерять лингвистическую генерализацию NL2SQL-моделей, чтобы лучше понять их реальные возможности. ## Метод Разработан фреймворк для генерации целенаправленных парафразированных версий SQL-запросов с использованием NL-to-SQL (SQL2NL) моделей. Этот фреймворк гарантирует, что парафразы сохраняют оригинальный смысл и соответствие схеме базы данных. Чтобы измерить лингвистическую генерализацию, парафразы используются для оценки NL2SQL-моделей, включая модели с разным объемом параметров. Технический подход включает в себя автоматизированные механизмы синтаксического и семантического анализа, чтобы обеспечить сохранение структуры SQL-запросов при генерации парафразов. Эта схема позволяет визуализировать робастность моделей к лингвистическим вариациям в изоляции, не затрагивая другие факторы, такие как схемные персистуирования. ## Результаты Используя разработанный фреймворк, проведены эксперименты на нескольких датасетах, включая Spider. Результаты показали, что самые современные модели, такие как LLaMa3.3-70B, имеют существенную уязвимость к лингвистическим вариациям. Например, LLaMa3.3-70B испытала убывание точности выполнения SQL-запросов на 10.23% при работе с парафразом Spider, а LLaMa3.1-8B — на 19.4%. Наиболее эффективные модели с меньшим числом параметров также оказались более чувствительными к лингвистическим вариациям. Эксперименты также показали, что робастность к вариациям значительно варьируется в зависимости от сложности запросов, выбранного датасета и домена. Это демонстрирует необходимость в разработке более систематичных методов оценки лингвистической генерализации NL2SQL-моделей. ## Значимость Результаты этой работы имеют перспективу применения в с

Annotation:

Robust evaluation in the presence of linguistic variation is key to understanding the generalization capabilities of Natural Language to SQL (NL2SQL) models, yet existing benchmarks rarely address this factor in a systematic or controlled manner. We propose a novel schema-aligned paraphrasing framework that leverages SQL-to-NL (SQL2NL) to automatically generate semantically equivalent, lexically diverse queries while maintaining alignment with the original schema and intent. This enables the fir...

ID: 2509.04657v1 cs.CL, cs.AI, cs.DB, cs.LG

arXiv PDF

📄 Database Entity Recognition with Data Augmentation and Deep Learning

2025-08-29

Авторы:

Zikun Fu, Chen Yang, Kourosh Davoudi, Ken Q. Pu

#### Контекст Базы данных (DB) играют ключевую роль в современных системах управления информацией, но их интерактивность часто ограничена сложностью языка запросов и нехваткой эффективных инструментов для интерактивного взаимодействия. Нейросетевые модели, такие как Text-to-SQL, позволяют трансформировать естественный язык запросов в SQL-запросы, но выявление сущностей в тексте запросов (Database Entity Recognition, DB-ER) остается сложной задачей. Недостаток качественных данных, требуемых для обучения моделей DB-ER, затрудняет прогресс в этой области. Целью настоящей работы является развитие эффективных методов для DB-ER, оптимизированных для естественных языковых запросов. #### Метод Мы предложили многоуровневый подход для улучшения DB-ER. В качестве основы использовался сочетаний полнотекстовых текстов запросов и их связанных SQL-запросов, доступных в популярных Text-to-SQL бенчмарках. Мы разработали процедуру автоматической аннотации текстов запросов, используя их соответствующие SQL-запросы. Для реализации модели DB-ER использовалась модель T5, которая была приспособлена для двух задач: последовательной меткочтению (sequence tagging) и классификации токенов (token classification). Модель была тщательно тренирована и подкорректирована с использованием данных, полученных в результате разработанной процедуры автоматической аннотации. #### Результаты Мы провели эксперименты с нашей моделью DB-ER, сравнив её с двумя современными моделями NER на двух метриках: точности и рекурсии. Наши результаты показали, что модель T5-based DB-ER выдаёт лучшие результаты на обоих метриках. Выполненная абляционная оценка показала, что автоматическая аннотация на основе SQL-запросов повысила точность и рекурсию на 10%, а оптимизация модели T5 улучшила эти метрики на 5-10%. Эти результаты демонстрируют эффективность разработанного подхода в улучшении выделения сущностей в естественных языковых запросах. #### Значимость Разработанный подход имеет широкое применение в сфере естественного языка и баз данных, включая поиска информации, веб-интерфейсы, роботов-консультантов и другие системы, требующие взаимодействия с базами данных. Основное преимущество этого подхода заключается в том, что он позволяет значительно улучшить точность и рекурсию моделей DB-ER, что в свою очередь приводит к эффективному интерактивному взаимодействию с базами данных. Это может способствовать расширению применения текстовых запросов к базам данных, улучшить качество систем поддержки решений и обогатить возможности интерактивного анализа данных. #### Выводы Мы успешно разработали и оценили метод для выделения сущностей в

Annotation:

This paper addresses the challenge of Database Entity Recognition (DB-ER) in Natural Language Queries (NLQ). We present several key contributions to advance this field: (1) a human-annotated benchmark for DB-ER task, derived from popular text-to-sql benchmarks, (2) a novel data augmentation procedure that leverages automatic annotation of NLQs based on the corresponding SQL queries which are available in popular text-to-SQL benchmarks, (3) a specialized language model based entity recognition mo...

ID: 2508.19372v1 cs.CL, cs.AI, cs.DB, cs.LG

arXiv PDF

Показано 1 - 10 из 14 записей