Research Challenges in Relational Database Management Systems for LLM Queries
2508.20912v1
cs.DB, cs.AI
2025-08-30
Авторы:
Kerem Akillioglu, Anurag Chakraborty, Sairaj Voruganti, M. Tamer Özsu
Резюме на русском
## Контекст
Large language models (LLMs), такие как GPT, возникли в 2018 году и стали основополагающей технологией для приложений, включая текстовую сводку, анализ тональности и автоматизированный ответ на вопросы. Недавно LLMs были интегрированы в реляционные системы управления базами данных (RDBMS) для улучшения запросов и поддержки операций сложной обработки данных. Организации, такие как Amazon, Databricks, Google и Snowflake, позволяют использовать LLMs напрямую в SQL-запросах, называемых LLM queries, для повышения эффективности и понимания данных. Однако существующие решения, основанные на открытом исходном коде, имеют ограниченные возможности и низкую производительность. В настоящем исследовании предлагается подробное описание работы с LLM-интегрированными RDBMS, выявление ограничений и первые шаги в преодоление существующих проблем.
## Метод
Для изучения LLM-интегрированных RDBMS были выбраны два открытых исходных решения и одна корпоративная платформа. Исследования основывались на воспроизведении пяти представительных запросов, показывающих различные стороны характеристик LLM-интегрированных систем. Эти запросы были применены для определения функциональных и производительностных ограничений, а также для выявления проблем с масштабируемостью. Также проведено исследование способов оптимизации использования ресурсов и улучшения планирования запросов. Результатом работы были научно обоснованные шаги к улучшению LLM-интегрированных систем, включая инструменты для улучшения планирования запросов и распределения ресурсов.
## Результаты
На основе исследования были выявлены три основные проблемы: ограниченная возможность обеспечения структурированных выходных данных, неэффективное использование ресурсов и проблемы с планированием запросов. Организации, использующие текущие решения, сталкиваются с тем, что запросы LLM не всегда могут генерировать структурированные выходные данные в формате, который нужен для дальнейшей обработки. Кроме того, ограниченность ресурсов и ограниченный планировщик запросов приводят к неэффективности и недостаточной масштабируемости. Исследователи предложили свои инициативы для улучшения этих аспектов, включая новые подходы к планированию запросов и применение методов для оптимизации ресурсов. В результате были получены улучшения в производительности и масштабируемости LLM-интегрированных RDBMS.
## Значимость
Результаты имеют значительное значение для нескольких областей применения. Во-первых, LLM-интегрированные RDBMS могут улучшить бизнес-анализ и принятие решений за счет улучшения функций оперативного ана
Abstract
Large language models (LLMs) have become essential for applications such as
text summarization, sentiment analysis, and automated question-answering.
Recently, LLMs have also been integrated into relational database management
systems to enhance querying and support advanced data processing. Companies
such as Amazon, Databricks, Google, and Snowflake offer LLM invocation directly
within SQL, denoted as LLM queries, to boost data insights. However,
open-source solutions currently have limited functionality and poor
performance. In this work, we present an early exploration of two open-source
systems and one enterprise platform, using five representative queries to
expose functional, performance, and scalability limits in today's SQL-invoked
LLM integrations. We identify three main issues: enforcing structured outputs,
optimizing resource utilization, and improving query planning. We implemented
initial solutions and observed improvements in accommodating LLM powered SQL
queries. These early gains demonstrate that tighter integration of LLM+DBMS is
the key to scalable and efficient processing of LLM queries.
Ссылки и действия
Дополнительные ресурсы: