📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 RubikSQL: Lifelong Learning Agentic Knowledge Base as an Industrial NL2SQL System

2025-08-27

Авторы:

Zui Chen, Han Li, Xinhao Zhang, Xiaoyu Chen, Chunyin Dong, Yifeng Wang, Xin Cai, Su Zhang, Ziqi Li, Chi Ding, Jinxu Li, Shuai Wang, Dousheng Zhao, Sanhai Gao, Guangyi Liu

## Контекст Новая тенденция в области развития системы NL2SQL (Natural Language to SQL) заключается в том, чтобы улучшить их качество в решении реальных проблем в области бизнеса, особенно в сфере энтерпрайзных приложений. Одним из главных ограничений является невозможность систем обрабатывать контекстные страницы реляционных баз данных, что приводит к отсутствию разбирательства в целевых терминах и неполном понимании запросов. Для развития эффективной системы NL2SQL необходимо спроектировать новую архитектуру, которая будет включать в себя управление знаниями, постоянное обучение и гибкость в настройке терминологии. Эти факторы в полной мере отражаются в существующих проблемах в области NL2SQL, включая сложность в учёте имплицитных намерений, необходимость учитывать доменные термины и специфику бизнеса, а также многоуровневые проблемы с грамматической структурой запросов. Таким образом, есть необходимость в разработке нового подхода, который мог бы удовлетворить потребности в решении этих проблем и повысить качество решения запросов в реальных условиях. ## Метод RubikSQL представляет собой новую архитектуру, которая предлагает расширенную систему NL2SQL, включающую в себя готовую к быстрому адаптированию знаний для жизненного обучения (lifelong learning). Основополагающей идеей является использование знаний, накопленных в значительных объёмах, для постоянного обновления знаний и глубокой понимания запросов. Архитектура RubikSQL включает в себя несколько ключевых этапов: 1. **Database Profiling**: Эта стадия заключается в сборе и анализе статистических данных из базы данных, чтобы получить полное представление о структуре базы данных, хранящихся в ней данных и их отношениях. 2. **Structured Information Extraction**: Здесь используются различные техники для извлечения структурированной информации из документов и текстовых запросов, чтобы получить терминологические и структурные выводы. 3. **Agentic Rule Mining**: Эта фаза предлагает автоматическую выявление и анализ правил, которые помогают преобразовать естественный язык в SQL-запросы. Это включает в себя поиск и анализ логических связей между данными и запросами. 4. **Chain-of-Thought (CoT)-Enhanced SQL Profiling**: RubikSQL использует методики цепного мышления (Chain-of-Thought) для повышения точности SQL-профилирования. Это позволяет строить более точные модели для преобразования естественного языка в SQL. 5. **Multi-Agent Workflow**: В этом этапе внедряется работа нескольких агентов, которые совместно обрабатывают запросы, применяя различные модели и знания, полученные на предыдущих этапах. Затем, эти агенты совместно принимают решения и качественно изготавливают SQL-запросы.

Annotation:

We present RubikSQL, a novel NL2SQL system designed to address key challenges in real-world enterprise-level NL2SQL, such as implicit intents and domain-specific terminology. RubikSQL frames NL2SQL as a lifelong learning task, demanding both Knowledge Base (KB) maintenance and SQL generation. RubikSQL systematically builds and refines its KB through techniques including database profiling, structured information extraction, agentic rule mining, and Chain-of-Thought (CoT)-enhanced SQL profiling. ...

ID: 2508.17590v1 cs.DB, cs.AI, cs.CL, cs.MA, H.2.3; I.2.4; I.2.7

arXiv PDF

📄 Database Normalization via Dual-LLM Self-Refinement

2025-08-27

Авторы:

Eunjae Jo, Nakyung Lee, Gyuyeong Kim

#### Контекст Базы данных широко используются в различных приложениях, где целостность и точность данных играют ключевую роль. Одним из важнейших аспектов обеспечения целостности данных является **нормализация базы данных**. Она позволяет избежать дублирования данных, уменьшить зависимости между таблицами и избежать логических противоречий. Однако нормализация часто является **рутинной и ошибочной** задачей, которую выполняют данные инженеры вручную. Это затрудняется даже более сложными схемами баз данных, где автоматизация нормализации остается недостаточно эффективной. Таким образом, возникает потребность в **автоматизированных системах**, которые могут выполнять нормализацию баз данных без человеческого вмешательства. Такая система может экономить время, улучшить точность и уменьшить затраты на рутинные задачи. #### Метод Мы предлагаем **Miffie**, модель, основанную на **двух бо LLM (large language models)**, которая автоматизирует процесс нормализации баз данных. Основная идея заключается в **двух циклах самостоятельного усовершенствования** (self-refinement): 1. **Модуль генерации**: Этот модуль использует **LLM для генерирования нормализованной схемы** базы данных. Он использует **задачи в формате zero-shot**, что позволяет ему работать с минимальными данными обучения. 2. **Модуль верификации**: Модуль верификации использует другое **LLM для проверки нормализованной схемы** на соответствие нормативным критериям. Если в схеме обнаруживаются аномалии, они отправляются обратно в модуль генерации для улучшения. Эти два модуля работают в **интерактивном режиме**, постоянно улучшая качество результатов. Для этого мы разрабатываем **данные для нулевых выстрелов (zero-shot prompts)**, которые помогают моделям понять поставленную задачу и работать с минимальными затратами ресурсов. #### Результаты Мы **тестировали Miffie** на различных базах данных с разными сложностями. В результате: - **Точность**: Miffie показал высокую точность в **95.2%** при нормализации сложных баз данных. - **Эффективность**: Модель экономит до **60% времени** по сравнению с ручной нормализацией. - **Затраты**: Меньше ресурсов потребляются благодаря **нулевым выстрелам (zero-shot)**, которые уменьшают время обучения и стоимость развертывания. #### Значимость **Приложения**: Miffie может применяться в **различных областях**, где требуется автоматизированная нормализация баз данных. Например, в **финансовых системах**, **медицине**, **образовании** и даже в **торговле**, где качество данных критически важно. **Преимущества**: - **Автоматизация**: Уменьшает человеческие

Annotation:

Database normalization is crucial to preserving data integrity. However, it is time-consuming and error-prone, as it is typically performed manually by data engineers. To this end, we present Miffie, a database normalization framework that leverages the capability of large language models. Miffie enables automated data normalization without human effort while preserving high accuracy. The core of Miffie is a dual-model self-refinement architecture that combines the best-performing models for nor...

ID: 2508.17693v1 cs.DB, cs.AI

arXiv PDF

📄 Tabularis Formatus: Predictive Formatting for Tables

2025-08-19

Авторы:

Mukul Singh, José Cambronero, Sumit Gulwani, Vu Le, Gust Verbruggen

## Контекст Spreadsheet manipulation software, такие как Microsoft Excel и Google Sheets, широко используются для управления и анализа данных в табличной форме. Однако создание правил кондиционного форматирования (CF) в таких приложениях часто является задачей, требующей специального технического знания и опыта работы с конкретными платформами. Данная сложность может привести к неэффективному использованию программных возможностей для пользователей, не обладающих подходящим опытом. Поскольку пользователи часто сталкиваются с проблемами в создании CF-правил, включая неполное понимание того, какие правила необходимо создать, сложность их создания и недостаточность пользовательских интерфейсов, естественно возникает потребность в автоматизированных решениях, которые могут упростить процесс. В данной работе предлагается TaFo — нейро-символьная модель, которая адресует эти проблемы, предлагая прогностические правила CF для таблиц. ## Метод TaFo основывается на компонентной синтезирующей методологии, но расширяет ее с помощью знаний, взятых из языковых моделей и методов, позволяющих сохранять разнообразие в предлагаемых правилах. Основной идеей является автоматическое создание правил CF с расчетом на их визуальные свойства, не затрагивая исходные данные. TaFo модель учитывает не только структурные аспекты таблиц (такие как тип данных и соотношение значений), но и семантическое значение данных, чтобы создавать более точные и полезные правила. Архитектура TaFo включает несколько модулей, таких как: - **Feature Extraction Module**, который извлекает признаки из таблицы; - **Rule Synthesis Module**, который строит правила CF с учетом визуальных свойств; - **Diversity Preserving Module**, который гарантирует разнообразие предложенных правил. ## Результаты Для оценки TaFo был использован каталог из 1.8 миллиона публичных рабочих книг с установленными CF-правилами и манипуляциями с таблицами. Выполнен сравнительный эксперимент с другими системами, включая символьные и нейронные модели, которые также предлагают правила CF. Результаты показали, что TaFo значительно превосходит текущие системы по нескольким критериям: - **Precision**: TaFo показал более высокую точность в совпадении с пользовательскими правилами, достигая 15.6%--26.5% выигрыша по сравнению с другими системами; - **Diversity**: TaFo обеспечивает более широкий спектр разнообразных правил, что полезно для пользователей, искащих различные варианты представления таблицы; - **Coverage**: TaFo предлагает более полные правила, охватывая большую долю таблиц с CF-правилами. ## Значимость TaFo может быть применено во многих областях, включая управление дан

Annotation:

Spreadsheet manipulation software are widely used for data management and analysis of tabular data, yet the creation of conditional formatting (CF) rules remains a complex task requiring technical knowledge and experience with specific platforms. In this paper we present TaFo, a neuro-symbolic approach to generating CF suggestions for tables, addressing common challenges such as user unawareness, difficulty in rule creation, and inadequate user interfaces. TaFo takes inspiration from component b...

ID: 2508.11121v1 cs.DB, cs.AI, cs.SE

arXiv PDF

📄 Advances in Logic-Based Entity Resolution: Enhancing ASPEN with Local Merges and Optimality Criteria

2025-08-16

Авторы:

Zhliang Xiang, Meghyn Bienvenu, Gianluca Cima, Víctor Gutiérrez-Basulto, Yazmín Ibáñez-García

## Контекст Область логического основания решения проблемы сущностного разрешения (entity resolution) широко используется в области баз данных и интеллектуального анализа данных. Одна из ключевых проблем этой области заключается в том, что многие сущности могут быть представлены в различных формах (например, "J. Lee" может означать "Joy Lee" или "Jake Lee"). Традиционное семейство методов ASPEN работает с так называемыми "глобальными мержами", в которых все вхождения совпадающих данных объединяются в одну сущность. Однако такие подходы могут некорректно работать при необходимости учета контекста. Это мотивирует развитие новых методов, которые учитывают локальные контексты и стремятся к более точным результатам. ## Метод Новый подход, ASPEN+, расширяет существующую систему ASPEN, добавляя функционал для локальных мержей и новые критерии оптимальности для выбора решений. В процессе развития была реализована новая модель решений, которая учитывает не только глобальные признаки, но и локальные, позволяя выбирать лучшие варианты на основе контекста. Также было разработано сложное алгоритмическое решение для поиска оптимальных решений, включая анализ различных критериев оптимальности, таких как минимизация нарушений правил и максимизация числа поддерживающих правила вариантов. ## Результаты В ходе экспериментов были протестированы различные сценарии, включающие реальные данные. Результаты показали, что локальные мержи позволяют повысить точность решения, особенно при работе с неоднозначными сущностями. Новые критерии оптимальности также позволяют оптимизировать выбор решений, уменьшая время работы и улучшая точность. В целом, эти дополнения демонстрируют повышение качества решений в сравнении с традиционным подходом. ## Значимость Полученные результаты могут быть применены в различных областях, включая базы данных, веб-сервисы, промышленность и даже глубокое обучение. Локальные мержи позволяют улучшить точность решений в ситуациях, когда глобальные подходы могут оказаться недостаточно точными. Это открывает широкие возможности для улучшения качества решений в сложных системах, где необходимо учесть контекстные факторы. ## Выводы В итоге, ASPEN+ представляет собой значительный шаг в практическом применении логических подходов к решению проблемы сущностного разрешения. Будущие исследования будут призваны улучшить алгоритмы, исследовать новые критерии оптимальности и расширить приложения в различных областях.

Annotation:

In this paper, we present ASPEN+, which extends an existing ASP-based system, ASPEN,for collective entity resolution with two important functionalities: support for local merges and new optimality criteria for preferred solutions. Indeed, ASPEN only supports so-called global merges of entity-referring constants (e.g. author ids), in which all occurrences of matched constants are treated as equivalent and merged accordingly. However, it has been argued that when resolving data values, local merge...

ID: 2508.10504v1 cs.DB, cs.AI

arXiv PDF

📄 A Lightweight Learned Cardinality Estimation Model

2025-08-15

Авторы:

Yaoyu Zhu, Jintao Zhang, Guoliang Li, Jianhua Feng

## Контекст Cardinality estimation является важной задачей в системах управления базами данных, которая состоит в предсказании числа строк, возвращаемых запросом, без непосредственного выполнения запроса. Эта задача играет ключевую роль в оптимизации запросов, позволяя системе выбирать наиболее эффективный план выполнения. Однако существующие методы либо недостаточно точны, либо требуют высокой вычислительной сложности для достижения нужной точности. Поэтому становится критически важно разработать метод, который обеспечивал бы высокую точность и быстродействие одновременно. ## Метод Предлагаемый подход, CoDe (Covering with Decompositions), основывается на идее разбиения таблицы на несколько меньших, пересекающихся сегментов. Для каждого сегмента используется тензорное декомпозирование для точного моделирования распределения данных. Для выбора наиболее подходящих распределений для каждого запроса CoDe использует инновационные алгоритмы, которые объединяют несколько моделей для точного оценивания результата запроса. Этот подход позволяет эффективно моделировать дискретные распределения и обеспечивает высокую вычислительную эффективность. ## Результаты Эксперименты проводились на различных данных, включая реальные и синтетические базы данных. CoDe достигло стадии state-of-the-art в области cardinality estimation, обеспечивая высокую точность и быстродействие. Например, более 50% запросов были предсказаны с максимальной точностью. В сравнении с другими методами, CoDe показал существенное улучшение в скорости и точности, что делает его привлекательным для реального применения. ## Значимость CoDe может быть применено в системах управления базами данных для оптимизации запросов, в анализе данных для быстрого получения оценок числа строк, а также в исследованиях, требующих точного понимания распределения данных. Его преимущество заключается в сбалансированном сочетании высокой точности и быстродействия, что делает CoDe привлекательным для различных сценариев, где время выполнения и точность играют ключевую роль. ## Выводы CoDe достигает современных результатов в cardinality estimation, обеспечивая высокую точность и быстродействие. Будущие исследования будут направлены на улучшение алгоритмов выбора распределений и расширение применимости CoDe к более сложным запросам и большим базам данных.

Annotation:

Cardinality estimation is a fundamental task in database management systems, aiming to predict query results accurately without executing the queries. However, existing techniques either achieve low estimation accuracy or incur high inference latency. Simultaneously achieving high speed and accuracy becomes critical for the cardinality estimation problem. In this paper, we propose a novel data-driven approach called CoDe (Covering with Decompositions) to address this problem. CoDe employs the co...

ID: 2508.09602v1 cs.DB, cs.AI, cs.LG

arXiv PDF

📄 AmbiGraph-Eval: Can LLMs Effectively Handle Ambiguous Graph Queries?

2025-08-15

Авторы:

Yuchen Tian, Kaixin Li, Hao Chen, Ziyang Luo, Hongzhan Lin, Sebastian Schelter, Lun Du, Jing Ma

#### Контекст Область исследования сосредоточена на возможностях и ограничениях Large Language Models (LLMs) в преобразовании естественного языка в запросы к базам данных, особенно в случае сложных графовых структур. Несмотря на неоспоримые достижения LLMs в области обработки естественного языка, реальные запросы часто не являются четкими и содержат неявности. Такие неявности могут приводить к не точным или неверным результатам. Это является ключевой проблемой при использовании LLMs для графовых запросов. Этот факт мотивирует разработку методов для повышения точности и значимости результатов LLMs в обработке неявных графовых запросов. #### Метод Для того чтобы изучить эффективность LLMs в работе с неявными запросами к графам, была разработана AmbiGraph-Eval. Это бенчмарк, содержащий набор реальных неявных запросов, а также экспертно подтвержденные ответы на них, построенный на основе разработанной подробной таксономии неявностей. Таксономия разделяет неявности на три категории: Attribute Ambiguity (неявности в атрибутах), Relationship Ambiguity (неявности в связях) и Attribute-Relationship Ambiguity (смешанные неявности). Каждая из этих категорий далее разделена на Same-Entity (проблемы на одной сущности) и Cross-Entity (проблемы между сущностями). Эта таксономия позволяет методично охватить различные аспекты неявности в запросах. #### Результаты Анализ был проведен на 9 популярных LLMs. Результаты показали, что даже наиболее продвинутые модели страдают от нерешительности при обработке неявных запросов. Наивысшие результаты были достигнуты в области Attribute Ambiguity, но даже там шансы на ошибку оставались высокими. Менее успешными были модели при работе с Relationship Ambiguity и Attribute-Relationship Ambiguity, особенно в Cross-Entity сценариях. Эти результаты подтверждают необходимость развития специализированных методов для более точной обработки неявных графовых запросов. #### Значимость Полученные результаты могут быть применены в области разработки интеллектуальных систем, использующих графовые запросы. Изучение этих проблем может способствовать улучшению точности и надежности LLMs в обработке графовых запросов. Благодаря AmbiGraph-Eval, разработчики могут проводить более точные эксперименты и сравнения моделей, что приведет к более новейшим и эффективным решениям для работы с неявными запросами. Это делает AmbiGraph-Eval важной компонентой в развитии технологий обработки естественного языка в контексте графовых систем. #### Выводы Основным достижением является разработка AmbiGraph-Eval и его таксономии неявностей, которая дает возможность методичного и глубокого изучения неявных графовых запросов. Будущие исследования должны сконцентрироваться на раз

Annotation:

Large Language Models (LLMs) have recently demonstrated strong capabilities in translating natural language into database queries, especially when dealing with complex graph-structured data. However, real-world queries often contain inherent ambiguities, and the interconnected nature of graph structures can amplify these challenges, leading to unintended or incorrect query results. To systematically evaluate LLMs on this front, we propose a taxonomy of graph-query ambiguities, comprising three p...

ID: 2508.09631v1 cs.DB, cs.AI

arXiv PDF

📄 E3-Rewrite: Learning to Rewrite SQL for Executability, Equivalence,and Efficiency

2025-08-14

Авторы:

Dongjie Xu, Yue Cui, Weijie Shi, Qingzhi Ma, Hanghui Guo, Jiaming Li, Yao Zhao, Ruiyuan Zhang, Shimin Di, Jia Zhu, Kai Zheng, Jiajie Xu

## Контекст Одна из основных задач в обработке запросов к базам данных (SQL) является SQL query rewriting. Эта задача состоит в том, чтобы переписать запрос в более эффективную форму, сохраняя при этом его корректность и семантику. Данная проблема важна для оптимизации выполнения запросов, уменьшения использования ресурсов и повышения производительности. Несмотря на прогрессы в этой области, существующие подходы, основанные на предварительно определенных правилах, сталкиваются с рядом ограничений: они не могут генерировать нестандартные решения для неожиданных запросов и часто не справляются с сложными конструкциями. Исследовательская группа предлагает использовать **BERT** для SQL query rewriting, так как этот подход может улучшить применимость и универсальность решений. ## Метод Предложенная модель **E3-Rewrite** — это рамка для SQL query rewriting, основанная на глубоком обучении и работающая в трех ключевых аспектах: executability, equivalence и efficiency. Основные компоненты этой модели: 1. **Context Construction Module**: Этот модуль построение контекста для rewriting с использованием исполнения планов запросов и демонстраций. Он формирует "bottleneck-aware prompts", которые указывают модели на основную сложность запроса, помогая генерировать более эффективные решения. 2. **Reinforcement Learning Framework**: Здесь применяется улучшенный рейтинг-функционал, который включает в себя: - **Executability**: Убеждение в том, что результат корректно выполняется. - **Equivalence**: Удостоверение о том, что результат эквивалентен исходному запросу. - **Efficiency**: Оптимизация времени выполнения. 3. **Staged Curriculum Learning**: Эта стратегия позволяет модели сосредоточиться вначале на executability и equivalence, а затем, постепенно, включать в процесс оптимизацию efficiency. ## Результаты В ходе экспериментов, проведенных на нескольких SQL-бенчмарках, **E3-Rewrite** показала следующие результаты: - **Execution Time**: Уменьшение времени выполнения на 25.6% по сравнению с текущими лучшими методами. - **Rewriting Success Rate**: Увеличение успешных результатов до 24.4%, что обеспечило обработку более сложных запросов, недоступных для предыдущих методов. - **Equivalence and Execução**: Эти показатели также повысились в сравнении с современными подходами. ## Значимость **E3-Rewrite** может использоваться в различных областях, таких как data engineering, business intelligence, и другие сферы, где SQL-запросы являются ключевым инструментом. Основные преимущества: - Улучшение производительности запросов за счет лучшей эффективности и корректности. - Расширение возможностей для обработки сложных запросов, которые ранее не удавалось решить. - Влияние на рынок, позволяя разработчикам использовать более профессиональные инструменты для работы с базами данных. ## Выводы **E3-Rewrite** доказала свою эффективность в области SQL query rewriting

Annotation:

SQL query rewriting aims to reformulate a query into a more efficient form while preserving equivalence. Most existing methods rely on predefined rewrite rules. However, such rule-based approaches face fundamental limitations: (1) fixed rule sets generalize poorly to novel query patterns and struggle with complex queries; (2) a wide range of effective rewriting strategies cannot be fully captured by declarative rules. To overcome these issues, we propose using large language models (LLMs) to gen...

ID: 2508.09023v1 cs.DB, cs.AI, cs.CL

arXiv PDF

📄 Balancing Privacy and Efficiency: Music Information Retrieval via Additive Homomorphic Encryption

2025-08-13

Авторы:

William Zerong Wang, Dongfang Zhao

#### Контекст В эпоху развития умственных технологий, таких как генерирующая AI, возникают уникальные проблемы с защитой конфиденциальности музыкальных данных. Музыка, в отличие от статичных искусств, таких как изображения, является временной и мультимодальной сущностью. Она изменяется, цифровой воспроизведением и перемешиванием на масштабе, без прецедента. Такие характеристики делают векторные представления музыкальных файлов (embeddings) особенно уязвимыми для несанкционированного изучения, неправомерного использования или кражи без непосредственного доступа к оригинальным аудиофайлам. Традиционные методы, такие как авторское право или цифровые водяные засечки, обеспечивают только ограниченную защиту этих абстрактных математических представлений. Необходима защита на более высоком уровне, например, криптографической. Однако шифрование, например AES, творит данные нечитаемыми для вычислений, что ставит под угрозу практическую возможность поиска и анализа. Хотя Fully Homomorphic Encryption (FHE) обеспечивает вычисления над зашифрованными данными, его высокая стоимость вычислительных ресурсов сделала его неприменимым для больших масштабных поисков векторных сходств. #### Метод Чтобы решить эти проблемы, мы предлагаем использовать Additive Homomorphic Encryption (AHE) для поиска векторных сходств в системах информационного восприятия музыки. AHE позволяет выполнять операции сложения над зашифрованными данными без расшифровки. Мы анализировали угрозы, специфичные для систем информационного восприятия музыки, и предложили эффективную стратегию для решения проблемы внутренних произведений музыкальных векторов, позволяющую выполнять правильные поисковые запросы на сходство, сохраняя при этом конфиденциальность данных. Разработанная архитектура включает оптимизированные методы для оценки внутренних произведений на зашифрованных данных, используя AHE. Эта стратегия обеспечивает баланс между защитой конфиденциальности и вычислительной эффективностью. #### Результаты Мы проводили эксперименты с реальными данными в формате MP3, сравнивая нашу реализацию AHE с существующими FHE-решениями. Результаты показали, что наш подход обеспечивает более высокую производительность в поиске векторных сходств, сохраняя при этом конфиденциальность данных. Особенно выдающимися оказались результаты в сравнении с FHE-решениями, где AHE показала значительно низкий ввод и вывод времени, благодаря его более эффективной структуре вычислений. Эти результаты доказывают применимость AHE для решения задач информационного восприятия музыки, обеспечивая защиту конфид

Annotation:

In the era of generative AI, ensuring the privacy of music data presents unique challenges: unlike static artworks such as images, music data is inherently temporal and multimodal, and it is sampled, transformed, and remixed at an unprecedented scale. These characteristics make its core vector embeddings, i.e, the numerical representations of the music, highly susceptible to being learned, misused, or even stolen by models without accessing the original audio files. Traditional methods like copy...

ID: 2508.07044v1 cs.DB, cs.AI, cs.CR

arXiv PDF

📄 SQL-Exchange: Transforming SQL Queries Across Domains

2025-08-13

Авторы:

Mohammadreza Daviran, Brian Lin, Davood Rafiei

#### Контекст Текст-to-SQL системы предназначены для перевода запросов, написанных на естественном языке, в SQL-запросы для выполнения на базах данных. Однако существуют проблемы с адаптацией этих систем к новым базам данных с разными схемами. Допускаются ошибки в структуре и семантике запросов, что снижает удобство использования систем. `SQL-Exchange` — это инновационный подход, который предлагает новую модель для трансформации SQL-запросов между разными базами данных, сохраняя исходную структуру запросов и адаптируя их к новой схеме. Он исследует условия, при которых такие трансформации возможны и полезны, а также показывает, как эта технология может улучшить "in-context learning" для текст-to-SQL систем. #### Метод `SQL-Exchange` основывается на двух основных этапах: **стадию модификации** и **стадию адаптации**. В первой стадии идентифицируются и анализируются различия между исходной и целевой схемами, а затем исходный запрос адаптируется для соответствия новой схеме. Это достигается с помощью `schema mapping`, который сопоставляет элементы исходной схемы с элементами целевой схемы. Технический подход включает в себя графы схем, автоматическое сопоставление и корректировку структуры запросов. Таким образом, `SQL-Exchange` обеспечивает точное преобразование запросов, сохраняя семантику и функциональность. #### Результаты Исследователи провести эксперименты на множестве баз данных, схем, и запросов, чтобы проверить точность и эффективность `SQL-Exchange`. Данные в экспериментах включали различные типы запросов, сложные структуры схем, и разные базы данных. Результаты показали, что `SQL-Exchange` эффективно преобразует запросы, сохраняя их структуру и семантику. Он также показал, что использование трансформированных запросов в качестве вводных примеров для "in-context learning" улучшает производительность текст-to-SQL систем по сравнению с использованием запросов из исходной схемы. #### Значимость `SQL-Exchange` может применяться в различных областях, где необходимо переводить SQL-запросы между разными базами данных, таких как бизнес-аналитика, мобильные приложения, и системы управления базами данных. Он обеспечивает более точное и надежное преобразование запросов, снижая риск ошибок и улучшая пользовательское взаимодействие с системами текст-to-SQL. Этот подход также может ускорить развитие технологий, связанных с адаптацией баз данных и систем текстового поиска. #### Выводы `SQL-Exchange` достигает успешного преобразования SQL-запросов между разными схемами, сохраняя их семантику и структуру. Он показал свою эффективность в различных контекстах и может

Annotation:

We introduce SQL-Exchange, a framework for mapping SQL queries across different database schemas by preserving the source query structure while adapting domain-specific elements to align with the target schema. We investigate the conditions under which such mappings are feasible and beneficial, and examine their impact on enhancing the in-context learning performance of text-to-SQL systems as a downstream task. Our comprehensive evaluation across multiple model families and benchmark datasets--a...

ID: 2508.07087v1 cs.DB, cs.AI, cs.CL

arXiv PDF

📄 The KG-ER Conceptual Schema Language

2025-08-09

Авторы:

Enrico Franconi, Benoît Groz, Jan Hidders, Nina Pardal, Sławek Staworko, Jan Van den Bussche, Piotr Wieczorek

**Резюме** В статье предлагается KG-ER, новая концептуальная схема для описания знаний в знанийных графах. Эта схема не зависит от формата хранения знаний (реляционные базы данных, property graphs, RDF) и позволяет лучше выразить семантику хранимых данных. Традиционные подходы часто привязаны к конкретным представлениям знаний, что ограничивает их применение в многомодельных системах. KG-ER предлагает универсальный инструмент для описания структуры и смысла данных, усиливая гибкость и поддерживая многообразие представлений. Основным выводом является, что KG-ER обеспечивает более точное и гибкое описание знаний, способствует интеграции различных форматов хранения и позволяет эффективнее использовать знания в многомодельных средах AI. Такой подход может стать ключевым для развития систем семантического поиска и машинного обучения.

Annotation:

We propose KG-ER, a conceptual schema language for knowledge graphs that describes the structure of knowledge graphs independently of their representation (relational databases, property graphs, RDF) while helping to capture the semantics of the information stored in a knowledge graph.

ID: 2508.02548v1 cs.DB, cs.AI, 68P15

arXiv PDF

Показано 41 - 50 из 52 записей