📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Declarative Techniques for NL Queries over Heterogeneous Data

2025-10-22

Авторы:

Elham Khabiri, Jeffrey O. Kephart, Fenno F. Heath III, Srideepika Jayaraman, Fateh A. Tipu, Yingjie Li, Dhruv Shah, Achille Fokoue, Anu Bhamidipaty

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In many industrial settings, users wish to ask questions in natural language, the answers to which require assembling information from diverse structured data sources. With the advent of Large Language Models (LLMs), applications can now translate natural language questions into a set of API calls or database calls, execute them, and combine the results into an appropriate natural language response. However, these applications remain impractical in realistic industrial settings because they do n...

ID: 2510.16470v1 cs.DB, cs.AI, cs.SE

arXiv PDF

📄 Comprehending Spatio-temporal Data via Cinematic Storytelling using Large Language Models

2025-10-22

Авторы:

Panos Kalnis. Shuo Shang, Christian S. Jensen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Spatio-temporal data captures complex dynamics across both space and time, yet traditional visualizations are complex, require domain expertise and often fail to resonate with broader audiences. Here, we propose MapMuse, a storytelling-based framework for interpreting spatio-temporal datasets, transforming them into compelling, narrative-driven experiences. We utilize large language models and employ retrieval augmented generation (RAG) and agent-based techniques to generate comprehensive storie...

ID: 2510.17301v1 cs.DB, cs.AI

arXiv PDF

📄 Aixel: A Unified, Adaptive and Extensible System for AI-powered Data Analysis

2025-10-16

Авторы:

Meihui Zhang, Liming Wang, Chi Zhang, Zhaojing Luo

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A growing trend in modern data analysis is the integration of data management with learning, guided by accuracy, latency, and cost requirements. In practice, applications draw data of different formats from many sources. In the meanwhile, the objectives and budgets change over time. Existing systems handle these applications across databases, analysis libraries, and tuning services. Such fragmentation leads to complex user interaction, limited adaptability, suboptimal performance, and poor exten...

ID: 2510.12642v1 cs.DB, cs.AI

arXiv PDF

📄 HES-SQL: Hybrid Reasoning for Efficient Text-to-SQL with Structural Skeleton Guidance

2025-10-14

Авторы:

Suming Qiu, Jing Li, Zhicheng Zhou, Junjie Huang, Linyuan Qiu, Zhijie Sun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present HES-SQL, a novel hybrid training framework that advances Text-to-SQL generation through the integration of thinking-mode-fused supervised fine-tuning (SFT) with Group Relative Policy Optimization (GRPO). Our approach introduces three key innovations: (1) a skeleton-completeness scoring mechanism that enhances preference alignment between generated queries and optimal SQL structures; (2) a query-latency-aware reward system that incentivizes the generation of computationally efficient S...

ID: 2510.08896v1 cs.DB, cs.AI, cs.CL

arXiv PDF

📄 ZeroCard: Cardinality Estimation with Zero Dependence on Target Databases -- No Data, No Query, No Retraining

2025-10-11

Авторы:

Xianghong Xu, Rong Kang, Xiao He, Lei Zhang, Jianjun Chen, Tieying Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Cardinality estimation is a fundamental task in database systems and plays a critical role in query optimization. Despite significant advances in learning-based cardinality estimation methods, most existing approaches remain difficult to generalize to new datasets due to their strong dependence on raw data or queries, thus limiting their practicality in real scenarios. To overcome these challenges, we argue that semantics in the schema may benefit cardinality estimation, and leveraging such sema...

ID: 2510.07983v1 cs.DB, cs.AI

arXiv PDF

📄 EMR-AGENT: Automating Cohort and Feature Extraction from EMR Databases

2025-10-04

Авторы:

Kwanhyung Lee, Sungsoo Hong, Joonhyung Park, Jeonghyeop Lim, Juhwan Choi, Donghwee Yoon, Eunho Yang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Machine learning models for clinical prediction rely on structured data extracted from Electronic Medical Records (EMRs), yet this process remains dominated by hardcoded, database-specific pipelines for cohort definition, feature selection, and code mapping. These manual efforts limit scalability, reproducibility, and cross-institutional generalization. To address this, we introduce EMR-AGENT (Automated Generalized Extraction and Navigation Tool), an agent-based framework that replaces manual ru...

ID: 2510.00549v2 cs.DB, cs.AI, I.2.7; H.2.8

arXiv PDF

📄 PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation

2025-10-01

Авторы:

Wei Zhou, Guoliang Li, Haoyu Wang, Yuxing Han, Xufei Wu, Fan Wu, Xuanhe Zhou

## Контекст В последние годы large language models (LLM) продемонстрировали вполне убедительные результаты в задачах Text-to-SQL, где требуется преобразовать синтаксически корректный текстовый запрос в SQL-запрос, соответствующий логике БД. Однако существует еще одна важная задача, называемая Cross-System SQL Translation (чаще всего — SQL-to-SQL), которая заключается в переводе SQL-запроса, написанного для одной базы данных (например, MySQL), на соответствующий запрос, корректный для другой базы данных (например, ClickHouse). Эта задача является достаточно сложной, так как каждая база данных имеет свои особенности в синтаксисе, функциях и системных ограничениях. Несмотря на ее практическую важность, существующие бенчмарки для SQL-задач не очень подходят для эффективной оценки моделей в Cross-System SQL Translation, в основном из-за ограниченного набора систем, с которыми они работают, и неэффективности в отражении реальных системных различий. ## Метод PARROT (Practical And Realistic BenchmaRk for CrOss-System SQL Translation) — это новый бенчмарк для оценки моделей LLM в Cross-System SQL Translation. Он включает 598 пар запросов, полученных из 38 открытых баз данных и реальных бизнес-систем. Авторы специально подготовили эти пары, чтобы оценить то, насколько хорошо модели LLM понимают системно-зависимые различия в SQL. Для расширенного тестирования представлены два дополнительных варианта: PARROT-Diverse (28,003 пар для тестирования многообразия синтаксиса) и PARROT-Simple (5,306 пар для тестирования под конкретные ситуации). Все пары работают с 22 production-grade database systems, что делает PARROT одной из самых мощных и обширных баз для этих задач. Для поддержки будущих исследований авторы также выпустили открытый leaderboard и исходный код на сайте: https://code4db.github.io/parrot-bench/. ## Результаты Авторы провели эксперименты с несколькими популярными LLM, включая GPT-4, LLaMA и др., и оценивали их на PARROT, PARROT-Diverse и PARROT-Simple. Результаты показали, что даже самые продвинутые модели достигают низкую точность (менее 38.53% в среднем) при выполнении задач Cross-System SQL Translation. Это свидетельствует о том, что эта задача значительно сложнее Text-to-SQL и требует более специализированных подходов. Также были проведены тестирования на PARROT-Diverse и PARROT-Simple, которые показали, что LLM способны получать высокую точность на простых задачах, но сильно страдают при работе с системно-зависимыми различиями. ## Значимость PARROT является первым реальностью для эффективной оценки LLM в Cross-System SQL Translation. Его особенность заключается в том, что он хорошо отражает реальные различия систем, что не дает LLM просто "обмануть" бенчмарком, при этом оставаясь полезным для реальных бизнес-систем. Это открывает пути для развития моделей, кото

Annotation:

Large language models (LLMS) have shown increasing effectiveness in Text-to-SQL tasks. However, another closely related problem, Cross-System SQL Translation (a.k.a., SQL-to-SQL), which adapts a query written for one database system (e.g., MySQL) into its equivalent one for another system (e.g., ClickHouse), is of great practical importance but remains underexplored. Existing SQL benchmarks are not well-suited for SQL-to-SQL evaluation, which (1) focus on a limited set of database systems (often...

ID: 2509.23338v1 cs.DB, cs.AI, cs.CL, cs.IR, cs.LG

arXiv PDF

📄 ML-Asset Management: Curation, Discovery, and Utilization

2025-10-01

Авторы:

Mengying Wang, Moming Duan, Yicong Huang, Chen Li, Bingsheng He, Yinghui Wu

## Контекст Modern машинное обучение (ML) оперирует объёмными и значимыми ML-активами, такими как модели, наборы данных и метаданные, которые являются ключевыми для современных ML-процессов. Однако эти активы часто либо недостаточно используются, либо используются неэффективно, из-за разделённых систем хранения, несогласованных лицензий, плохой документации и отсутствия централизованного средства поиска. Это создаёт серьёзные проблемы для организаций и исследователей, которые стремятся максимально эффективно использовать существующие ML-ресурсы. Эти проблемы вызывают необходимость в развитии системы управления ML-активами, которая могла бы сделать их более доступными, удобными и эффективными в использовании. ## Метод Для решения указанных проблем, авторы предлагают подробный анализ ML-активов и их управления. Исследование включает в себя разделение ML-активов на категории, определение основных проблем управления, описание современных подходов и анализ технических систем, которые могут решать эти проблемы. Авторы также сосредоточиваются на системных аспектах, таких как масштабируемость, цепочка происхождения данных (lineage) и создание единого индекса для удобного поиска. На практике, разработка этих подходов включает в себя разработку систем, которые позволяют быстро и эффективно обнаруживать, сравнивать и использовать ML-активы в различных задачах. ## Результаты В ходе исследования были проведены сравнительные эксперименты с использованием различных ML-ресурсов, включая модели, наборы данных и инструменты управления. Использовались различные данные, такие как open-source модели, наборы данных для ML-обучения и тестовые наборы для оценки эффективности различных систем управления. Результаты показали, что существуют значительные проблемы в обнаружении и управлении ML-активами, но новые технологии, такие как автоматическая документация, улучшенные механизмы поиска и новые системы для управления лицензиями, могут существенно повысить эффективность использования этих ресурсов. ## Значимость Развитие эффективных методов управления ML-ресурсами имеет широкое применение во многих областях, включая бизнес-аналитику, финансовые системы, здравоохранение и интернет-рекламу. Это может привести к значительному повышению эффективности использования ресурсов, уменьшению затрат на разработку новых моделей и повышению прозрачности и доступности ML-ресурсов. Этот подход также может уменьшить риск несовместимости и несоответствия лицензий, что является важной проблемой в многообразных ML-проектах. ## Выводы В ито

Annotation:

Machine learning (ML) assets, such as models, datasets, and metadata, are central to modern ML workflows. Despite their explosive growth in practice, these assets are often underutilized due to fragmented documentation, siloed storage, inconsistent licensing, and lack of unified discovery mechanisms, making ML-asset management an urgent challenge. This tutorial offers a comprehensive overview of ML-asset management activities across its lifecycle, including curation, discovery, and utilization. ...

ID: 2509.23577v1 cs.DB, cs.AI, cs.IR

arXiv PDF

📄 ARCADE: A Real-Time Data System for Hybrid and Continuous Query Processing across Diverse Data Modalities

2025-09-26

Авторы:

Jingyi Yang, Songsong Mo, Jiachen Shi, Zihao Yu, Kunhao Shi, Xuchen Ding, Gao Cong

## Контекст Современное цифровое пространство стремительно растет, внедряя новые формы данных, такие как текст, изображения, видео, пространственные данные и реляционные базы. Этот экспоненциальный рост требует эффективных систем для обработки и анализа такой данной в реальном времени. На сегодняшний день существуют системы, которые могут обрабатывать отдельные типы данных, но нет ни одной, которая в состоянии обеспечить эффективные и вы experssive гибридные аналитики в режиме реального времени. Это ограничение приводит к неэффективному использованию ресурсов и низкой скорости выполнения запросов. Мотивация для ARCADE заключается в создании системы, которая может обеспечить высокоэффективную обработку данных разных типов в реальном времени, без ущерба для производительности и гибкости. ## Метод ARCADE основывается на подходе, который комбинирует дисковую систему вторичных индексов с параллельной обработкой запросов. Она использует LSM-based storage (Log-Structured Merge-Tree) для хранения индексов в разных модальностях данных, включая векторы, пространственные данные и текст. Для обеспечения высокой производительности и дешевизны, ARCADE использует RocksDB, открытую систему хранения, и для выполнения запросов — MySQL query engine. Для поддержки гибридных и непрерывных запросов, ARCADE ввела расширенное фреймворком построения материализованных представлений, которое обеспечивает эффективную обработку данных в реальном времени. ## Результаты Чтобы оценить производительность ARCADE, проведены эксперименты с использованием реальных данных, включая векторные, пространственные и текстовые данные. Эксперименты показали, что ARCADE обеспечивает до 7.4x быстрее выполнения запросов, чем лидирующие системы на рынке при read-heavy workloads, и до 1.4x при write-heavy workloads. В частности, ARCADE обеспечивает высокую скорость обработки непрерывных запросов с минимальным временем ответа, что делает ее высокоэффективной для реального временного анализа данных. ## Значимость ARCADE может быть использована в различных сферах, включая поиск подсказок в реальном времени, анализ пространственных данных, мониторинг и анализ данных из социальных сетей. Одним из основных преимуществ является высокая скорость обработки данных разных типов, а также гибкость в их сочетании в одном запросе. Потенциальное влияние ARCADE заключается в том, что она может стать основой для развития новых алгоритмов и систем, которые работают с несколькими типами данных в реальном времени, и улучшают качество решения задач в цифровых исследованиях. ## Выводы Результаты исследований показывают, что ARCADE является эффективной системой для реального времени, обрабатывающей гибридные и непрерывные за

Annotation:

The explosive growth of multimodal data - spanning text, image, video, spatial, and relational modalities, coupled with the need for real-time semantic search and retrieval over these data - has outpaced the capabilities of existing multimodal and real-time database systems, which either lack efficient ingestion and continuous query capability, or fall short in supporting expressive hybrid analytics. We introduce ARCADE, a real-time data system that efficiently supports high-throughput ingestion...

ID: 2509.19757v1 cs.DB, cs.AI

arXiv PDF

📄 Transformer-Gather, Fuzzy-Reconsider: A Scalable Hybrid Framework for Entity Resolution

2025-09-24

Авторы:

Mohammadreza Sharifi, Danial Ahmadzadeh

#### Контекст Entity resolution (ER) является критическим компонентом систем управления предприятиями, где поддержание точности и интегрированности данных является приоритетным. Традиционные методы часто сталкиваются с проблемами обработки шума в данных и не имеют способности к пониманию смысла. Модернизированные алгоритмы, несмотря на их высокую точность, часто сталкиваются с высокими затратами ресурсов и требуют больших вычислительных мощностей. Наша мотивация заключается в разработке метода, который бы сталкался с этими проблемами, обеспечивал высокую точность и широкий масштабируемый монтаж. Мы сосредоточились на создании распределенной системы, которая бы удачно решала эти задачи в реальном времени. #### Метод Мы предлагаем гибридную систему, объединяющую модели трансформера и методы зыбких строковых совпадений. Наша система начинает с эмбеддингов, созданных с помощью предварительно обученной модели, для представления каждого элемента данных в виде вектора смысла. Затем, мы используем техники зыбкого строкового соответствия для поиска наиболее похожих элементов в семантически относительной степени. Эта система наращивает мощность вычислений при необходимости, используя широкомасштабные семантические модели, но при этом не теряя эффективности, используя строковые методы для достижения высокой скорости. Мы также применяем техники для обеспечения надежности и уменьшения шума в процессе решения. #### Результаты Мы проводили эксперименты на реальных данных, включая записяни центрального пользовательского менеджмента и серверов-хостингов. Наши результаты показали, что система определяет точные соответствия с высокой скоростью обработки, а также обеспечивает высокую надежность в результатах. Мы сравнили нашу систему с другими методами и получили прирост в точности и уменьшение времени обработки данных без ущерба для результатов. Это подтверждает нашу гибридную модель как эффективное решение для решения задач entity resolution в больших системах. #### Значимость Наша система может быть применена в таких областях, как управление данными, банковское производство, интернет-маркетинг и т.д., где мощные решения для обработки данных являются критически важными. Наш подход выделяется своей высокой эффективностью и мощью в обработке больших объемов данных в реальном времени. Он может повысить качество данных, уменьшить вычислительные затраты и улучшить общую производительность систем управления данными. #### Выводы Мы превзошли существующие подходы в области entity resolution, получив высокую точность и мощь обработки. Наша система может быть развернута на стандартных CPU-системах, не

Annotation:

Entity resolution plays a significant role in enterprise systems where data integrity must be rigorously maintained. Traditional methods often struggle with handling noisy data or semantic understanding, while modern methods suffer from computational costs or the excessive need for parallel computation. In this study, we introduce a scalable hybrid framework, which is designed to address several important problems, including scalability, noise robustness, and reliable results. We utilized a pre-...

ID: 2509.17470v1 cs.DB, cs.AI, cs.LG

arXiv PDF

Показано 21 - 30 из 52 записей