Play by the Type Rules: Inferring Constraints for LLM Functions in Declarative Programs
2509.20208v1
cs.CL, cs.AI, cs.DB
2025-09-26
Авторы:
Parker Glenn, Alfy Samuel, Daben Liu
Резюме на русском
## Контекст
Интеграция LLM-powered operators в declarative query languages позволяет объединить дешевые и интерпретируемые функции с мощными, универсально применимыми моделями языка. Однако, для эффективного использования оптимизированной работы SQL-like языков запросов, выходные данные должны соответствовать правилам типизации и содержимому базы данных. Настоящие подходы решают эту проблему за счет сложных итераций LLM-based post-processing, которые не только увеличивают время выполнения, но и снижают производительность. В данном исследовании проводится исследование возможности различных размеров open-source language models для парсинга и выполнения функций в рамках SQL-based query languages, показывая, что небольшие language models могут значительно производительнее выполнять функции над мульти-источниковыми данными. Исследование также предлагает эффективное решение для обеспечения корректности типизации LLM-функций, показывая 7% улучшения точности и 53% ускорение во времени выполнения сравниваемых решений.
## Метод
Для решения проблемы типизации LLM-функций взаимодействие с declarative query languages обеспечивается с помощью специализированной архитектуры, состоящей из двух основных компонентов: LLM-based executor и type checker. Первый компонент отвечает за выполнение функций, а второй — за проверку того, что они соответствуют типам данных в базе. Архитектура разработана таким образом, чтобы обеспечить оптимальный баланс между производительностью и точностью. Основной мотивацией является сокращение количества операций post-processing, которые традиционно используются для достижения соответствия типов. Для эффективности работы используется специализированный подход, который позволяет существенно уменьшить затраты времени на выполнение запросов, обеспечив в то же время их корректность.
## Результаты
В ходе исследования проведено рядов экспериментов на разных размерах языковых моделей, включая small, medium и large. Эксперименты показали, что малые language models не только способны выполнять функции над hybrid data sources, но и демонстрируют высокую точность в парсинге и выполнении SQL-запросов. На датасете multi-hop question answering было продемонстрировано, что small language model показывает 7% более высокую точность по сравнению с более крупными моделями, при этом значительно сокращая latency. Также было продемонстрировано, что применение эффективного type checker позволяет увеличить точность на 53% в сравнении с другими подходами, при этом уменьшив время выполнения запросов.
## Значимость
Полученные результаты имеют широкие области применения в сферах, где необходима производительная интеграция LLM с declarative query languages, таких как data integration, question answering, и data analytics. Используя мощь small language models, можно эффективно уменьшить latency при выполнении запросов, что становится ключе
Abstract
Integrating LLM powered operators in declarative query languages allows for
the combination of cheap and interpretable functions with powerful,
generalizable language model reasoning. However, in order to benefit from the
optimized execution of a database query language like SQL, generated outputs
must align with the rules enforced by both type checkers and database contents.
Current approaches address this challenge with orchestrations consisting of
many LLM-based post-processing calls to ensure alignment between generated
outputs and database values, introducing performance bottlenecks. We perform a
study on the ability of various sized open-source language models to both parse
and execute functions within a query language based on SQL, showing that small
language models can excel as function executors over hybrid data sources. Then,
we propose an efficient solution to enforce the well-typedness of LLM
functions, demonstrating 7% accuracy improvement on a multi-hop question
answering dataset with 53% improvement in latency over comparable solutions. We
make our implementation available at https://github.com/parkervg/blendsql
Ссылки и действия
Дополнительные ресурсы: