A Lightweight Learned Cardinality Estimation Model
2508.09602v1
cs.DB, cs.AI, cs.LG
2025-08-15
Авторы:
Yaoyu Zhu, Jintao Zhang, Guoliang Li, Jianhua Feng
Резюме на русском
## Контекст
Cardinality estimation является важной задачей в системах управления базами данных, которая состоит в предсказании числа строк, возвращаемых запросом, без непосредственного выполнения запроса. Эта задача играет ключевую роль в оптимизации запросов, позволяя системе выбирать наиболее эффективный план выполнения. Однако существующие методы либо недостаточно точны, либо требуют высокой вычислительной сложности для достижения нужной точности. Поэтому становится критически важно разработать метод, который обеспечивал бы высокую точность и быстродействие одновременно.
## Метод
Предлагаемый подход, CoDe (Covering with Decompositions), основывается на идее разбиения таблицы на несколько меньших, пересекающихся сегментов. Для каждого сегмента используется тензорное декомпозирование для точного моделирования распределения данных. Для выбора наиболее подходящих распределений для каждого запроса CoDe использует инновационные алгоритмы, которые объединяют несколько моделей для точного оценивания результата запроса. Этот подход позволяет эффективно моделировать дискретные распределения и обеспечивает высокую вычислительную эффективность.
## Результаты
Эксперименты проводились на различных данных, включая реальные и синтетические базы данных. CoDe достигло стадии state-of-the-art в области cardinality estimation, обеспечивая высокую точность и быстродействие. Например, более 50% запросов были предсказаны с максимальной точностью. В сравнении с другими методами, CoDe показал существенное улучшение в скорости и точности, что делает его привлекательным для реального применения.
## Значимость
CoDe может быть применено в системах управления базами данных для оптимизации запросов, в анализе данных для быстрого получения оценок числа строк, а также в исследованиях, требующих точного понимания распределения данных. Его преимущество заключается в сбалансированном сочетании высокой точности и быстродействия, что делает CoDe привлекательным для различных сценариев, где время выполнения и точность играют ключевую роль.
## Выводы
CoDe достигает современных результатов в cardinality estimation, обеспечивая высокую точность и быстродействие. Будущие исследования будут направлены на улучшение алгоритмов выбора распределений и расширение применимости CoDe к более сложным запросам и большим базам данных.
Abstract
Cardinality estimation is a fundamental task in database management systems,
aiming to predict query results accurately without executing the queries.
However, existing techniques either achieve low estimation accuracy or incur
high inference latency. Simultaneously achieving high speed and accuracy
becomes critical for the cardinality estimation problem. In this paper, we
propose a novel data-driven approach called CoDe (Covering with Decompositions)
to address this problem. CoDe employs the concept of covering design, which
divides the table into multiple smaller, overlapping segments. For each
segment, CoDe utilizes tensor decomposition to accurately model its data
distribution. Moreover, CoDe introduces innovative algorithms to select the
best-fitting distributions for each query, combining them to estimate the final
result. By employing multiple models to approximate distributions, CoDe excels
in effectively modeling discrete distributions and ensuring computational
efficiency. Notably, experimental results show that our method represents a
significant advancement in cardinality estimation, achieving state-of-the-art
levels of both estimation accuracy and inference efficiency. Across various
datasets, CoDe achieves absolute accuracy in estimating more than half of the
queries.
Ссылки и действия
Дополнительные ресурсы: