📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Forgetting by Pruning: Data Deletion in Join Cardinality Estimation

2025-11-26

Авторы:

Chaowei He, Yuanjun Liu, Qingzhi Ma, Shenyuan Ren, Xizhao Luo, Lei Zhao, An Liu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Machine unlearning in learned cardinality estimation (CE) systems presents unique challenges due to the complex distributional dependencies in multi-table relational data. Specifically, data deletion, a core component of machine unlearning, faces three critical challenges in learned CE models: attribute-level sensitivity, inter-table propagation and domain disappearance leading to severe overestimation in multi-way joins. We propose Cardinality Estimation Pruning (CEP), the first unlearning fram...

ID: 2511.20293v1 cs.DB, cs.AI, cs.LG

arXiv PDF

📄 Cortex AISQL: A Production SQL Engine for Unstructured Data

2025-11-15

Авторы:

Paritosh Aggarwal, Bowei Chen, Anupam Datta, Benjamin Han, Boxin Jiang, Nitish Jindal, Zihan Li, Aaron Lin, Pawel Liskowski, Jay Tayade, Dimitris Tsirogiannis, Nathan Wiegand, Weicheng Zhao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Snowflake's Cortex AISQL is a production SQL engine that integrates native semantic operations directly into SQL. This integration allows users to write declarative queries that combine relational operations with semantic reasoning, enabling them to query both structured and unstructured data effortlessly. However, making semantic operations efficient at production scale poses fundamental challenges. Semantic operations are more expensive than traditional SQL operations, possess distinct latency...

ID: 2511.07663v1 cs.DB, cs.AI, cs.LG

arXiv PDF

📄 Transformer-Gather, Fuzzy-Reconsider: A Scalable Hybrid Framework for Entity Resolution

2025-09-24

Авторы:

Mohammadreza Sharifi, Danial Ahmadzadeh

#### Контекст Entity resolution (ER) является критическим компонентом систем управления предприятиями, где поддержание точности и интегрированности данных является приоритетным. Традиционные методы часто сталкиваются с проблемами обработки шума в данных и не имеют способности к пониманию смысла. Модернизированные алгоритмы, несмотря на их высокую точность, часто сталкиваются с высокими затратами ресурсов и требуют больших вычислительных мощностей. Наша мотивация заключается в разработке метода, который бы сталкался с этими проблемами, обеспечивал высокую точность и широкий масштабируемый монтаж. Мы сосредоточились на создании распределенной системы, которая бы удачно решала эти задачи в реальном времени. #### Метод Мы предлагаем гибридную систему, объединяющую модели трансформера и методы зыбких строковых совпадений. Наша система начинает с эмбеддингов, созданных с помощью предварительно обученной модели, для представления каждого элемента данных в виде вектора смысла. Затем, мы используем техники зыбкого строкового соответствия для поиска наиболее похожих элементов в семантически относительной степени. Эта система наращивает мощность вычислений при необходимости, используя широкомасштабные семантические модели, но при этом не теряя эффективности, используя строковые методы для достижения высокой скорости. Мы также применяем техники для обеспечения надежности и уменьшения шума в процессе решения. #### Результаты Мы проводили эксперименты на реальных данных, включая записяни центрального пользовательского менеджмента и серверов-хостингов. Наши результаты показали, что система определяет точные соответствия с высокой скоростью обработки, а также обеспечивает высокую надежность в результатах. Мы сравнили нашу систему с другими методами и получили прирост в точности и уменьшение времени обработки данных без ущерба для результатов. Это подтверждает нашу гибридную модель как эффективное решение для решения задач entity resolution в больших системах. #### Значимость Наша система может быть применена в таких областях, как управление данными, банковское производство, интернет-маркетинг и т.д., где мощные решения для обработки данных являются критически важными. Наш подход выделяется своей высокой эффективностью и мощью в обработке больших объемов данных в реальном времени. Он может повысить качество данных, уменьшить вычислительные затраты и улучшить общую производительность систем управления данными. #### Выводы Мы превзошли существующие подходы в области entity resolution, получив высокую точность и мощь обработки. Наша система может быть развернута на стандартных CPU-системах, не

Annotation:

Entity resolution plays a significant role in enterprise systems where data integrity must be rigorously maintained. Traditional methods often struggle with handling noisy data or semantic understanding, while modern methods suffer from computational costs or the excessive need for parallel computation. In this study, we introduce a scalable hybrid framework, which is designed to address several important problems, including scalability, noise robustness, and reliable results. We utilized a pre-...

ID: 2509.17470v1 cs.DB, cs.AI, cs.LG

arXiv PDF

📄 ScaleDoc: Scaling LLM-based Predicates over Large Document Collections

2025-09-18

Авторы:

Hengrui Zhang, Yulong Hui, Yihao Liu, Huanchen Zhang

#### Контекст Современные системы анализа данных сталкиваются с возрастающим объемом неструктурированных документов, которые требуют не только значительных вычислительных ресурсов, но и способности к семантическому пониманию. Традиционные значение-ориентированные предикаты, широко используемые в этих системах, не могут справиться с такими задачами, так как не включают в себя особенности неструктурированных данных. Большие языковые модели (LLMs), в свою очередь, обладают мощными возможностями в области семантического понимания, но их высокая стоимость вызова становится проблемой при масштабировании. Для решения этой проблемы необходим метод, позволяющий эффективно использовать модели LLMs в сценариях массового анализа документов. #### Метод Система \textsc{ScaleDoc} предлагает разделение процесса выполнения предикатов на две фазы: оффлайнное представление и онлайн-фильтрацию. В оффлайн-фазе, \textsc{ScaleDoc} использует LLM для генерирования семантических представлений для каждого документа, что обеспечивает глубокое понимание контента. В онлайн-фазе, для каждого запроса, \textsc{ScaleDoc} обучает легковесную прокси-модель на этих представлениях для быстрого отбора документов, отправляя только неоднозначные случаи на полный анализ LLM. Для достижения эффективности итоговой системы, \textsc{ScaleDoc} внедряет две ключевые инновации: (1) фреймворк на основе контрастного обучения, обучающий прокси-модель для точного определения решений, и (2) адаптивный каскадный механизм, оптимизирующий политику фильтрации в зависимости от требуемой точности. #### Результаты В ходе экспериментов, проведенных на трех различных наборах данных, \textsc{ScaleDoc} демонстрирует существенные выигрыши в производительности. Система достигает быстродействия, которое превышает 2$\times$ по сравнению с прямым использованием LLMs. Более того, \textsc{ScaleDoc} снижает количество дорогостоящих вызовов LLMs до 85%, оставляя только самые неоднозначные случаи. Эти результаты показывают, что \textsc{ScaleDoc} эффективно решает проблему масштабирования предикатов для неструктурированных документов, снижая затраты вычислительных ресурсов и увеличивая скорость работы. #### Значимость \textsc{ScaleDoc} может быть применен в различных областях, где необходимо быстрый и эффективный анализ большого количества неструктурированных документов, например, в системах мониторинга, системах поддержки принятия решений и системах управления рисками. Основное преимущество \textsc{ScaleDoc} заключается в том, что он обеспечивает высокую эффективность без подрыва точности, что делает его привлекательным для решения реальных проблем. Этот подход может сущест

Annotation:

Predicates are foundational components in data analysis systems. However, modern workloads increasingly involve unstructured documents, which demands semantic understanding, beyond traditional value-based predicates. Given enormous documents and ad-hoc queries, while Large Language Models (LLMs) demonstrate powerful zero-shot capabilities, their high inference cost leads to unacceptable overhead. Therefore, we introduce \textsc{ScaleDoc}, a novel system that addresses this by decoupling predicat...

ID: 2509.12610v1 cs.DB, cs.AI, cs.LG

arXiv PDF

📄 A Lightweight Learned Cardinality Estimation Model

2025-08-15

Авторы:

Yaoyu Zhu, Jintao Zhang, Guoliang Li, Jianhua Feng

## Контекст Cardinality estimation является важной задачей в системах управления базами данных, которая состоит в предсказании числа строк, возвращаемых запросом, без непосредственного выполнения запроса. Эта задача играет ключевую роль в оптимизации запросов, позволяя системе выбирать наиболее эффективный план выполнения. Однако существующие методы либо недостаточно точны, либо требуют высокой вычислительной сложности для достижения нужной точности. Поэтому становится критически важно разработать метод, который обеспечивал бы высокую точность и быстродействие одновременно. ## Метод Предлагаемый подход, CoDe (Covering with Decompositions), основывается на идее разбиения таблицы на несколько меньших, пересекающихся сегментов. Для каждого сегмента используется тензорное декомпозирование для точного моделирования распределения данных. Для выбора наиболее подходящих распределений для каждого запроса CoDe использует инновационные алгоритмы, которые объединяют несколько моделей для точного оценивания результата запроса. Этот подход позволяет эффективно моделировать дискретные распределения и обеспечивает высокую вычислительную эффективность. ## Результаты Эксперименты проводились на различных данных, включая реальные и синтетические базы данных. CoDe достигло стадии state-of-the-art в области cardinality estimation, обеспечивая высокую точность и быстродействие. Например, более 50% запросов были предсказаны с максимальной точностью. В сравнении с другими методами, CoDe показал существенное улучшение в скорости и точности, что делает его привлекательным для реального применения. ## Значимость CoDe может быть применено в системах управления базами данных для оптимизации запросов, в анализе данных для быстрого получения оценок числа строк, а также в исследованиях, требующих точного понимания распределения данных. Его преимущество заключается в сбалансированном сочетании высокой точности и быстродействия, что делает CoDe привлекательным для различных сценариев, где время выполнения и точность играют ключевую роль. ## Выводы CoDe достигает современных результатов в cardinality estimation, обеспечивая высокую точность и быстродействие. Будущие исследования будут направлены на улучшение алгоритмов выбора распределений и расширение применимости CoDe к более сложным запросам и большим базам данных.

Annotation:

Cardinality estimation is a fundamental task in database management systems, aiming to predict query results accurately without executing the queries. However, existing techniques either achieve low estimation accuracy or incur high inference latency. Simultaneously achieving high speed and accuracy becomes critical for the cardinality estimation problem. In this paper, we propose a novel data-driven approach called CoDe (Covering with Decompositions) to address this problem. CoDe employs the co...

ID: 2508.09602v1 cs.DB, cs.AI, cs.LG

arXiv PDF