Text to Query Plans for Question Answering on Large Tables

2508.18758v1 cs.DB, cs.AI, cs.CL 2025-08-28
Авторы:

Yipeng Zhang, Chen Wang, Yuzhe Zhang, Jacky Jiang

Резюме на русском

## Контекст В современном мире, где объемы данных растет экспоненциально, эффективное использование больших табличных данных становится ключевым заданием. Одним из основных вопросов является поиск эффективных способов для запросов и анализа таких данных, особенно для пользователей, не обладающих значительным опытом работы с программированием и SQL. Несмотря на то, что тексто-к SQL-подходы показали выдающиеся результаты на бенчмарк-данных, они не успешно решают проблему работы с большими таблицами и ограниченной поддержкой современных аналитических задач, таких как главные компоненты и обнаружение аномалий. Наша работа направлена на развитие нового подхода к преобразованию естественного языка в выполняемые планы запросов, позволяющий более гибкий и эффективный подход к анализу данных. ## Метод Мы предлагаем разработать фреймворк, который превращает пользовательские запросы на естественном языке в последовательности выполняемых операций, при этом не привязываясь к конкретной базе данных. Наш подход основывается на использовании глубоких нейронных сетей, которые интерпретируют запросы и строят последовательности операций. Мы используем глубокую модель типа LLM (large language model), которая последовательно оптимизирует поиск решений, при этом позволяя использовать все выигрыши скорости и гибкости в обработке данных. Ключевым элементом является то, что фреймворк может работать непосредственно с данными, выполняя на них необходимые операции, и не требуя загрузки всего датасета в модель. ## Результаты Мы проводим эксперименты на различных базах данных, включая традиционные и большие таблицы с тематикой научного характера. Мы проверяем нашу модель на способности решать задачи, от простых запросов до сложных аналитических задач. Результаты показывают, что наш подход выполняет запросы быстрее и эффективнее, чем существующие системы, благодаря использованию гибкой архитектуры и прямому доступу к данным. Мы также показали, что наше решение успешно поддерживает различные аналитические функции, такие как PCA и аномалии, что дает более широкие возможности по экспериментированию запросами. ## Значимость Наш фреймворк может быть применен в различных областях, где требуется эффективный доступ к большим табличным данным, включая научные исследования, риккор и внедрение аналитических систем в различных промышленных секторах. Основное преимущество нашего подхода заключается в том, что он предоставляет более гибкую и производительную альтернативу SQL, позволяя выполнять широкий спектр запросов, в том числе такие, которые невозможны в клас

Abstract

Efficient querying and analysis of large tabular datasets remain significant challenges, especially for users without expertise in programming languages like SQL. Text-to-SQL approaches have shown promising performance on benchmark data; however, they inherit SQL's drawbacks, including inefficiency with large datasets and limited support for complex data analyses beyond basic querying. We propose a novel framework that transforms natural language queries into query plans. Our solution is implemented outside traditional databases, allowing us to support classical SQL commands while avoiding SQL's inherent limitations. Additionally, we enable complex analytical functions, such as principal component analysis and anomaly detection, providing greater flexibility and extensibility than traditional SQL capabilities. We leverage LLMs to iteratively interpret queries and construct operation sequences, addressing computational complexity by incrementally building solutions. By executing operations directly on the data, we overcome context length limitations without requiring the entire dataset to be processed by the model. We validate our framework through experiments on both standard databases and large scientific tables, demonstrating its effectiveness in handling extensive datasets and performing sophisticated data analyses.

Ссылки и действия