Research Challenges in Relational Database Management Systems for LLM Queries

2508.20912v1 cs.DB, cs.AI 2025-08-30
Авторы:

Kerem Akillioglu, Anurag Chakraborty, Sairaj Voruganti, M. Tamer Özsu

Резюме на русском

## Контекст Large language models (LLMs), такие как GPT, возникли в 2018 году и стали основополагающей технологией для приложений, включая текстовую сводку, анализ тональности и автоматизированный ответ на вопросы. Недавно LLMs были интегрированы в реляционные системы управления базами данных (RDBMS) для улучшения запросов и поддержки операций сложной обработки данных. Организации, такие как Amazon, Databricks, Google и Snowflake, позволяют использовать LLMs напрямую в SQL-запросах, называемых LLM queries, для повышения эффективности и понимания данных. Однако существующие решения, основанные на открытом исходном коде, имеют ограниченные возможности и низкую производительность. В настоящем исследовании предлагается подробное описание работы с LLM-интегрированными RDBMS, выявление ограничений и первые шаги в преодоление существующих проблем. ## Метод Для изучения LLM-интегрированных RDBMS были выбраны два открытых исходных решения и одна корпоративная платформа. Исследования основывались на воспроизведении пяти представительных запросов, показывающих различные стороны характеристик LLM-интегрированных систем. Эти запросы были применены для определения функциональных и производительностных ограничений, а также для выявления проблем с масштабируемостью. Также проведено исследование способов оптимизации использования ресурсов и улучшения планирования запросов. Результатом работы были научно обоснованные шаги к улучшению LLM-интегрированных систем, включая инструменты для улучшения планирования запросов и распределения ресурсов. ## Результаты На основе исследования были выявлены три основные проблемы: ограниченная возможность обеспечения структурированных выходных данных, неэффективное использование ресурсов и проблемы с планированием запросов. Организации, использующие текущие решения, сталкиваются с тем, что запросы LLM не всегда могут генерировать структурированные выходные данные в формате, который нужен для дальнейшей обработки. Кроме того, ограниченность ресурсов и ограниченный планировщик запросов приводят к неэффективности и недостаточной масштабируемости. Исследователи предложили свои инициативы для улучшения этих аспектов, включая новые подходы к планированию запросов и применение методов для оптимизации ресурсов. В результате были получены улучшения в производительности и масштабируемости LLM-интегрированных RDBMS. ## Значимость Результаты имеют значительное значение для нескольких областей применения. Во-первых, LLM-интегрированные RDBMS могут улучшить бизнес-анализ и принятие решений за счет улучшения функций оперативного ана

Abstract

Large language models (LLMs) have become essential for applications such as text summarization, sentiment analysis, and automated question-answering. Recently, LLMs have also been integrated into relational database management systems to enhance querying and support advanced data processing. Companies such as Amazon, Databricks, Google, and Snowflake offer LLM invocation directly within SQL, denoted as LLM queries, to boost data insights. However, open-source solutions currently have limited functionality and poor performance. In this work, we present an early exploration of two open-source systems and one enterprise platform, using five representative queries to expose functional, performance, and scalability limits in today's SQL-invoked LLM integrations. We identify three main issues: enforcing structured outputs, optimizing resource utilization, and improving query planning. We implemented initial solutions and observed improvements in accommodating LLM powered SQL queries. These early gains demonstrate that tighter integration of LLM+DBMS is the key to scalable and efficient processing of LLM queries.

Ссылки и действия