Bootstrapping Learned Cost Models with Synthetic SQL Queries
2508.19807v1
cs.DB, cs.AI
2025-08-29
Авторы:
Michael Nidd, Christoph Miksovic, Thomas Gschwind, Francesco Fusco, Andrea Giovannini, Ioana Giurgiu
Резюме на русском
## Контекст
В системах управления базами данных (СУБД) необходимо обеспечить эффективность выполнения запросов и минимизировать затраты. Одним из ключевых показателей является точность прогнозирования затрат. Оптимальное прогнозирование затрат позволяет оптимизировать ресурсы, уменьшить время отклика и обеспечить надежность. Однако существуют сложности в получении реалистичных наборов данных для обучения машинного обучения (ML), которые могут повлиять на точность и стоимость моделей. Эти сложности влекут за собой готовность инвестировать в подготовку больших наборов данных или в создание имитационных моделей. Более того, создание разнообразных наборов данных для конкретного экземпляра СУБД позволяет тестировать оптимальность запросов, но требует интеллектуальных решений для генерации этих наборов. Этот процесс является важным для тестирования устойчивости и эффективности работы СУБД.
## Метод
Мы применяем методы имитационного обучения, основанные на методах современной генеративной AI и технологий генерации языка (LLM). Технология LLM позволяет генерировать объемные и семантически разнообразные наборы данных, которые могут эффективно имитировать реальные запросы к базе данных. Наша методика включает следующие этапы: 1) создание генеративной модели, которая может генерировать SQL-запросы с различной семантикой; 2) использование синтетических данных для обучения учительной модели, направленной на прогнозирование затрат; 3) оценка эффективности модели в различных сценариях. Метод предъявляет требования к сложности генерируемых данных, чтобы модель могла хорошо обобщаться на реальные запросы.
## Результаты
Мы провели эксперименты с использованием различных наборов данных, включая реальные и синтетические. Обученная модель показала повышенную точность предсказания затрат при обучении на синтетических данных, сравнимой с реальными наборами. Мы сравнили нашу модель с конкурентными подходами и выявили, что наш подход позволяет значительно сократить количество обучающих данных, необходимых для достижения точности, 45% меньше, чем при использовании других методов генерации данных. Это уменьшение в количестве данных приводит к сокращению времени обучения и уменьшению стоимости подготовки данных.
## Значимость
Наши результаты могут иметь значительное применение в области тестирования СУБД, где требуется эффективность и точность в прогнозировании затрат. Это позволяет улучшить модели для принятия решений в зоне оптимизации ресурсов и регулирования затрат. Областьми применения могут стать интеллектуальные технологии, которые помогают оптимизировать работу систем
Abstract
Having access to realistic workloads for a given database instance is
extremely important to enable stress and vulnerability testing, as well as to
optimize for cost and performance. Recent advances in learned cost models have
shown that when enough diverse SQL queries are available, one can effectively
and efficiently predict the cost of running a given query against a specific
database engine. In this paper, we describe our experience in exploiting modern
synthetic data generation techniques, inspired by the generative AI and LLM
community, to create high-quality datasets enabling the effective training of
such learned cost models. Initial results show that we can improve a learned
cost model's predictive accuracy by training it with 45% fewer queries than
when using competitive generation approaches.
Ссылки и действия
Дополнительные ресурсы: