A Lightweight Learned Cardinality Estimation Model

2508.09602v1 cs.DB, cs.AI, cs.LG 2025-08-15
Авторы:

Yaoyu Zhu, Jintao Zhang, Guoliang Li, Jianhua Feng

Резюме на русском

## Контекст Cardinality estimation является важной задачей в системах управления базами данных, которая состоит в предсказании числа строк, возвращаемых запросом, без непосредственного выполнения запроса. Эта задача играет ключевую роль в оптимизации запросов, позволяя системе выбирать наиболее эффективный план выполнения. Однако существующие методы либо недостаточно точны, либо требуют высокой вычислительной сложности для достижения нужной точности. Поэтому становится критически важно разработать метод, который обеспечивал бы высокую точность и быстродействие одновременно. ## Метод Предлагаемый подход, CoDe (Covering with Decompositions), основывается на идее разбиения таблицы на несколько меньших, пересекающихся сегментов. Для каждого сегмента используется тензорное декомпозирование для точного моделирования распределения данных. Для выбора наиболее подходящих распределений для каждого запроса CoDe использует инновационные алгоритмы, которые объединяют несколько моделей для точного оценивания результата запроса. Этот подход позволяет эффективно моделировать дискретные распределения и обеспечивает высокую вычислительную эффективность. ## Результаты Эксперименты проводились на различных данных, включая реальные и синтетические базы данных. CoDe достигло стадии state-of-the-art в области cardinality estimation, обеспечивая высокую точность и быстродействие. Например, более 50% запросов были предсказаны с максимальной точностью. В сравнении с другими методами, CoDe показал существенное улучшение в скорости и точности, что делает его привлекательным для реального применения. ## Значимость CoDe может быть применено в системах управления базами данных для оптимизации запросов, в анализе данных для быстрого получения оценок числа строк, а также в исследованиях, требующих точного понимания распределения данных. Его преимущество заключается в сбалансированном сочетании высокой точности и быстродействия, что делает CoDe привлекательным для различных сценариев, где время выполнения и точность играют ключевую роль. ## Выводы CoDe достигает современных результатов в cardinality estimation, обеспечивая высокую точность и быстродействие. Будущие исследования будут направлены на улучшение алгоритмов выбора распределений и расширение применимости CoDe к более сложным запросам и большим базам данных.

Abstract

Cardinality estimation is a fundamental task in database management systems, aiming to predict query results accurately without executing the queries. However, existing techniques either achieve low estimation accuracy or incur high inference latency. Simultaneously achieving high speed and accuracy becomes critical for the cardinality estimation problem. In this paper, we propose a novel data-driven approach called CoDe (Covering with Decompositions) to address this problem. CoDe employs the concept of covering design, which divides the table into multiple smaller, overlapping segments. For each segment, CoDe utilizes tensor decomposition to accurately model its data distribution. Moreover, CoDe introduces innovative algorithms to select the best-fitting distributions for each query, combining them to estimate the final result. By employing multiple models to approximate distributions, CoDe excels in effectively modeling discrete distributions and ensuring computational efficiency. Notably, experimental results show that our method represents a significant advancement in cardinality estimation, achieving state-of-the-art levels of both estimation accuracy and inference efficiency. Across various datasets, CoDe achieves absolute accuracy in estimating more than half of the queries.

Ссылки и действия

Связанные статьи

Transformer-Gather, Fuzzy-Reconsider: A Scalable Hybrid Framework for Entity Res...

#### Контекст Entity resolution (ER) является критическим компонентом систем управления предприятиями, где поддержание т...

2025-09-24

ScaleDoc: Scaling LLM-based Predicates over Large Document Collections

#### Контекст Современные системы анализа данных сталкиваются с возрастающим объемом неструктурированных документов, ко...

2025-09-18