📚 Саммари научных статей из arXiv

Найдено 52 результатов по запросу 'cs.DB, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 From Documents to Database: Failure Modes for Industrial Assets

2025-09-24

Авторы:

Duygu Kabakci-Zorlu, Fabio Lorenzi, John Sheehan, Karol Lynch, Bradley Eck

## Контекст Инфраструктура индустриальных активов широко используется в различных отраслях, но ее эффективное управление часто оказывается сложной задачей. Одним из ключевых аспектов этого управления является проведение Failure Mode and Effects Analysis (FMEA), которая позволяет идентифицировать потенциальные неисправности и оценивать их влияние на систему. Для создания FMEA требуется значительный вклад ручных работ, так как это процесс, основанный на анализе технических документов. Данные документы часто содержат неорганизованные или перекрестно ссылающиеся сведения, что усложняет автоматический анализ. Из-за этого неэффективность и затраты времени на создание FMEA остаются высокими. Наша мотивация заключается в разработке интерактивной системы, которая бы позволила сократить эти затраты и улучшить точность процесса. ## Метод Мы предлагаем интерактивную систему, которая использует фундаментальные модели языка (foundation models) для обработки технических документов и построения FMEA. Наша методика включает несколько этапов: (1) **предобработка текста** для подготовки технических документов к анализу; (2) **агрегация информации** из нескольких документов для построения полного и точного представления о системе и ее компонентах; (3) **генерация FMEA** с помощью фундаментальных моделей языка, которые анализируют связи между компонентами и их возможными неисправностями; (4) **хранение результатов** в реляционной базе данных для дальнейшего использования в системах управления активами. Благодаря этой архитектуре, мы объединяем технологии ИИ с пользовательскими требованиями для повышения эффективности процесса. ## Результаты Мы проводили эксперименты с различными наборами технических документов, включая документацию по эксплуатации и техническим спецификациям. Наши результаты показали, что система способна эффективно агрегировать сведения из множества документов и генерировать FMEA в значительно короткие сроки по сравнению с традиционными методами. Мы провели сравнительный анализ с ручным подходом и обнаружили, что система сокращает время создания FMEA в среднем на 40%, при этом улучшая точность и полноту результатов. Эти результаты демонстрируют потенциал нашего подхода для улучшения процесса создания FMEA в индустрии. ## Значимость Наш подход может быть применен в различных отраслях, таких как энергетика, промышленность, инфраструктура и другие, где эффективное управление активами критически важно. Ключевые преимущества включают уменьшение времени и затрат на создание FMEA, улучшение точности результатов и интеграция с имеющимися системами управления активами. Это может

Annotation:

We propose an interactive system using foundation models and user-provided technical documents to generate Failure Mode and Effects Analyses (FMEA) for industrial equipment. Our system aggregates unstructured content across documents to generate an FMEA and stores it in a relational database. Leveraging this tool, the time required for creation of this knowledge-intensive content is reduced, outperforming traditional manual approaches. This demonstration showcases the potential of foundation mod...

ID: 2509.17834v1 cs.DB, cs.AI, cs.CL

arXiv PDF

📄 A Case for Computing on Unstructured Data

2025-09-20

Авторы:

Mushtari Sadia, Amrita Roy Chowdhury, Ang Chen

## Контекст Unstructured данные, такие как текст, изображения, аудио и видео, составляют большую часть информации в мире. Однако, существующие системы обработки данных, опирающиеся на структурированные форматы, не могут эффективно обрабатывать эти данные. Это ограничение приводит к проблемам в доступе и анализе unstructured данных. Мы предлагаем новую архитектуру под названием "computing on unstructured data", которая предполагает три основных этапа: извлечение логической структуры, преобразование её с помощью алгоритмов обработки данных и восстановление unstructured формата. Этот подход позволяет объединить преимущества структурированного и unstructured способов обработки данных. Из этого следует, что необходимо разработать систему MXFlow, которая реализует этот подход. ## Метод Методология, предлагаемая в этой работе, основывается на трех этапах: извлечение latent structure (логической структуры), преобразования этой структуры с помощью data processing techniques (алгоритмов обработки данных) и projection back (возврате обратно к unstructured формату). Для этих целей предлагается MXFlow — новая система, которая включает в себя механизмы для извлечения структуры, трансформации и восстановления unstructured формата. Эти этапы обеспечивают би-дирекциональную Pipeline (конвейерную обработку), которая позволяет объединить преимущества оба подхода к обработке данных. Мы также рассматриваем технические решения для реализации MXFlow, в том числе алгоритмы для извлечения логической структуры и преобразования её. ## Результаты Мы проводили эксперименты на различных типах unstructured данных, включая текст, изображения и аудио. Использовались различные данные, такие как текст для научного анализа, изображения для обработки графической информации и аудио для распознавания речи. Результаты показали, что MXFlow эффективно осуществляет извлечение логической структуры, преобразование её и восстановление unstructured формата. Эти результаты подтверждают то, что MXFlow может обеспечить би-дирекциональную обработку с одинаковой эффективностью как для структурированных, так и unstructured данных. ## Значимость Разработанный подход имеет широкие области применения, включая computer vision, natural language processing, speech recognition и другие области, где unstructured данные играют определяющую роль. Одним из основных преимуществ MXFlow является возможность обрабатывать unstructured данные с помощью структурированных методов, что позволяет увеличить точность и эффективность обработки. Это открывает новые перспективы в развитии AI и data analysis. ## Выводы Мы представили новую модель computing on unstructured data, которая объединяет преимущества структурированных и unstructured подходов к обработке данных. Мы также представили систему MXFlow, которая реализует этот подход.

Annotation:

Unstructured data, such as text, images, audio, and video, comprises the vast majority of the world's information, yet it remains poorly supported by traditional data systems that rely on structured formats for computation. We argue for a new paradigm, which we call computing on unstructured data, built around three stages: extraction of latent structure, transformation of this structure through data processing techniques, and projection back into unstructured formats. This bi-directional pipeli...

ID: 2509.14601v1 cs.DB, cs.AI

arXiv PDF

📄 ScaleDoc: Scaling LLM-based Predicates over Large Document Collections

2025-09-18

Авторы:

Hengrui Zhang, Yulong Hui, Yihao Liu, Huanchen Zhang

#### Контекст Современные системы анализа данных сталкиваются с возрастающим объемом неструктурированных документов, которые требуют не только значительных вычислительных ресурсов, но и способности к семантическому пониманию. Традиционные значение-ориентированные предикаты, широко используемые в этих системах, не могут справиться с такими задачами, так как не включают в себя особенности неструктурированных данных. Большие языковые модели (LLMs), в свою очередь, обладают мощными возможностями в области семантического понимания, но их высокая стоимость вызова становится проблемой при масштабировании. Для решения этой проблемы необходим метод, позволяющий эффективно использовать модели LLMs в сценариях массового анализа документов. #### Метод Система \textsc{ScaleDoc} предлагает разделение процесса выполнения предикатов на две фазы: оффлайнное представление и онлайн-фильтрацию. В оффлайн-фазе, \textsc{ScaleDoc} использует LLM для генерирования семантических представлений для каждого документа, что обеспечивает глубокое понимание контента. В онлайн-фазе, для каждого запроса, \textsc{ScaleDoc} обучает легковесную прокси-модель на этих представлениях для быстрого отбора документов, отправляя только неоднозначные случаи на полный анализ LLM. Для достижения эффективности итоговой системы, \textsc{ScaleDoc} внедряет две ключевые инновации: (1) фреймворк на основе контрастного обучения, обучающий прокси-модель для точного определения решений, и (2) адаптивный каскадный механизм, оптимизирующий политику фильтрации в зависимости от требуемой точности. #### Результаты В ходе экспериментов, проведенных на трех различных наборах данных, \textsc{ScaleDoc} демонстрирует существенные выигрыши в производительности. Система достигает быстродействия, которое превышает 2$\times$ по сравнению с прямым использованием LLMs. Более того, \textsc{ScaleDoc} снижает количество дорогостоящих вызовов LLMs до 85%, оставляя только самые неоднозначные случаи. Эти результаты показывают, что \textsc{ScaleDoc} эффективно решает проблему масштабирования предикатов для неструктурированных документов, снижая затраты вычислительных ресурсов и увеличивая скорость работы. #### Значимость \textsc{ScaleDoc} может быть применен в различных областях, где необходимо быстрый и эффективный анализ большого количества неструктурированных документов, например, в системах мониторинга, системах поддержки принятия решений и системах управления рисками. Основное преимущество \textsc{ScaleDoc} заключается в том, что он обеспечивает высокую эффективность без подрыва точности, что делает его привлекательным для решения реальных проблем. Этот подход может сущест

Annotation:

Predicates are foundational components in data analysis systems. However, modern workloads increasingly involve unstructured documents, which demands semantic understanding, beyond traditional value-based predicates. Given enormous documents and ad-hoc queries, while Large Language Models (LLMs) demonstrate powerful zero-shot capabilities, their high inference cost leads to unacceptable overhead. Therefore, we introduce \textsc{ScaleDoc}, a novel system that addresses this by decoupling predicat...

ID: 2509.12610v1 cs.DB, cs.AI, cs.LG

arXiv PDF

📄 Schema Inference for Tabular Data Repositories Using Large Language Models

2025-09-09

Авторы:

Zhenyu Wu, Jiaoyan Chen, Norman W. Paton

## Контекст Работа с непроверенными табличными данными, содержащими несогласованности в представлении и недостаточно метаданных, является трудной и запутанной задачей. Хотя ранее развиты методы для обнаружения и эксплуатации табличных данных, схематизация таких данных остается сложной задачей, особенно когда метаданные ограничены. Обнаружение и интерпретация структуры таблиц являются ключевыми для их эффективного использования в задачах, таких как обнаружение значимости данных, создание запросов и анализ. Мы предлагаем SI-LLM (Schema Inference using Large Language Models), которое использует технологии больших языковых моделей для вывода концептуальной схемы из непроверенных табличных данных, используя только заголовки столбцов и значения ячеек. ## Метод SI-LLM основывается на трех этапах. В первом этапе используется технология генеративного моделирования для построения высококачественных данных для обучения. Затем, используя промежуточные образцы, языковая модель выводит нейросетевую модель, которая выполняет сравнение и вывод. Наконец, генеративная модель генерирует концептуальную схему запросов, включая типы сущностей, атрибуты и их взаимоотношения. Архитектура метода основывается на глубоких нейросетевых моделях, обученных с помощью больших объемов данных, что позволяет получать точные и детальные схемы даже при недостаточном количестве метаданных. ## Результаты В экспериментах SI-LLM был протестирован на двух наборах данных: таблицах веба и открытыми данными. Он показал перспективные результаты в целом, а также более высокие или одинаковые результаты по сравнению с современными методами на каждом этапе. Например, SI-LLM существенно повысил точность вывода сущностей и связей, а также повысил удобочитаемость интерпретаций данных. Эта система позволяет пользователю быстро понять структуру данных и принять решения на ее основе. ## Значимость SI-LLM может применяться в различных областях, включая базы данных, анализ данных и дизайн баз данных. Он предоставляет более конкретные и точные схемы, чем существующие методы, что упрощает работу с непроверенными данными. Это может повлиять на развитие технологий, повышая эффективность обработки табличных данных и улучшая качество решений, основанных на этих данных. ## Выводы SI-LLM является перспективным инструментом для вывода схем табличных данных, используя только заголовки и значения ячеек. Он достигает более высокого качества и точности по сравнению с другими методами. Наше исследование продемонстрировало возможность использования технологий больших языковых моделей для решения сложных задач в области д

Annotation:

Minimally curated tabular data often contain representational inconsistencies across heterogeneous sources, and are accompanied by sparse metadata. Working with such data is intimidating. While prior work has advanced dataset discovery and exploration, schema inference remains difficult when metadata are limited. We present SI-LLM (Schema Inference using Large Language Models), which infers a concise conceptual schema for tabular data using only column headers and cell values. The inferred schem...

ID: 2509.04632v1 cs.DB, cs.AI

arXiv PDF

📄 Disentangling the schema turn: Restoring the information base to conceptual modelling

2025-09-05

Авторы:

Chris Partridge, Andrew Mitchell, Sergio de Cesare, Oscar Xiberta Soto

## Контекст В современных практиках разработки концептуальных моделей в компьютерных науках существует сильное, почти универсальное предпочтение к концептуальным схемам. Эти схемы часто называются просто концептуальными моделями, что демонстрирует сильное схема-центричное стремление. Этот подход является кристаллизацией почти вездесущей тенденции в популярных учебниках по базам данных. Буквально "перемотка", которую мы обозначили как "schema turn", представляет собой сильное уделение внимания концептуальным схемам в полном отрезании от информационной базы. Такой подход породил широко распространенные практики в концептуальной моделировании, но при этом привел к лишению внимания важному компоненту — информационной базе. Цель нашего исследования заключается в разъяснении происхождения этого подхода, показании того, что он не является фундаментальным, и позволении внедрению более всеобъемлющего подхода, который включает обе стороны — схему и её информационную базу. Это позволит улучшить автоматизацию и глубину исследований в области концептуального моделирования. ## Метод Мы предлагаем рассмотреть концептуальное моделирование как систему, включающую концептуальную схему и информационную базу, и рассматривать их как интегрированные, но различные, компоненты. Для достижения этой цели мы используем методологию, основанную на новой технологии — bCLEARer. Эта технология представляет собой pipeline-based conceptual modelling, которая позволяет автоматизировать процесс моделирования с учетом обоих компонентов. Мы используем bCLEARer для продemonстрации возможностей этого нового подхода, демонстрируя, как он может быть применен в различных контекстах. Также, мы проводим эксперименты с различными данными, показывая, как этот подход может быть применен в реальных ситуациях, чтобы получить более точные и эффективные результаты. ## Результаты Мы провели ряд экспериментов, используя различные наборы данных, включая как синтетические, так и реальные. Наши результаты показали, что применение pipeline-based conceptual modelling позволяет более точно отразить информационную базу в концептуальной модели, что в свою очередь улучшает качество моделирования. Мы также проанализировали влияние различных параметров на результаты и показали, что наша методология может значительно повысить точность и объём данных, которые могут быть включены в модель. Эксперименты также показали, что bCLEARer может быть применен в различных сценариях, включая те, где информационная база является очень объёмной и сложной. ## Значимость Результаты нашего исследования имеют зна

Annotation:

If one looks at contemporary mainstream development practices for conceptual modelling in computer science, these so clearly focus on a conceptual schema completely separated from its information base that the conceptual schema is often just called the conceptual model. These schema-centric practices are crystallized in almost every database textbook. We call this strong, almost universal, bias towards conceptual schemas the schema turn. The focus of this paper is on disentangling this turn with...

ID: 2509.01617v1 cs.DB, cs.AI, cs.SE, D.2.10

arXiv PDF

📄 Cut Costs, Not Accuracy: LLM-Powered Data Processing with Guarantees

2025-09-05

Авторы:

Sepanta Zeighami, Shreya Shankar, Aditya Parameswaran

#################### ## Контекст #################### Современные большие текстовые данные (large text datasets) требуют эффективного и точного обработки, что делает их обработку на высоком уровне качества очень затратной. Большие лингвистические модели (LLMs) стали популярными для обработки таких данных, но существуют различные модели с разными значениями стоимости и качества. На практике модели с высоким качеством (например, GPT-4) могут вызвать слишком высокие затраты, поэтому модели с более низким качеством (например, GPT-4-Mini) могут использоваться вместо них. Однако это приводит к тому, что точность может снизиться, что неприемлемо во многих ситуациях. Для решения этой проблемы необходимо создать систему, которая будет эффективно комбинировать модели с разным качеством, чтобы обеспечить высокую точность при минимальных затратах. #################### ## Метод #################### Предлагаемый подход, который называется BARGAIN, использует адаптивную стратегию выбора записей, которая определяет, какие записи следует обрабатывать с помощью дорогостоящей модели, а какие -- с помощью дешевой. Стратегия основывается на характеристиках данных и задачи, а также на недавних статистических инструментах, которые обеспечивают точные оценки показателей качества. Базовая идея заключается в том, чтобы использовать дорогую модель для записей, где вероятность ошибки высока, и использовать дешевую модель для записей, где ошибка менее вероятна. Таким образом, можно сократить затраты без существенного снижения точности. #################### ## Результаты #################### Для исследования были использованы 8 реальных датасеты, на которых проводились эксперименты с различными вариантами BARGAIN. Результаты показали, что метод существенно сокращает затраты на обработку данных, среднее сокращение составило до 86% в сравнении с текущими решениями. Это достигается без значительного снижения точности, а в некоторых случаях даже улучшает качество вывода. Также были получены строгие теоретические гарантии на точность, достоверность и другие показатели качества. #################### ## Значимость #################### BARGAIN может быть применен в различных областях, где требуется высококачественная обработка данных, например, в системах ранжирования, моделировании и анализа текстовых данных. Он предоставляет значительные экономии стоимости, предоставляя гарантии на качество результатов. Более того, он может стать ключевым инструментом для улучшения эффективности и доступности больших моделей текстового обработки, что может повлиять на широкую область применений, включая AI-приложения и данные в реальном времени. #################### ## Выводы #################### BARGAIN может эффективно решать проблему компромисса между затратами и качеством в обработке тек

Annotation:

Large Language Models (LLMs) are being increasingly used as a building block in data systems to process large text datasets. To do so, LLM model providers offer multiple LLMs with different sizes, spanning various cost-quality trade-offs when processing text at scale. Top-of-the-line LLMs (e.g., GPT-4o, Claude Sonnet) operate with high accuracy but are prohibitively expensive when processing many records. To avoid high costs, more affordable but lower quality LLMs (e.g., GPT-4o-mini, Claude Haik...

ID: 2509.02896v1 cs.DB, cs.AI

arXiv PDF

📄 Adaptive KV-Cache Compression without Manually Setting Budget

2025-09-05

Авторы:

Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang

#### Контекст Наблюдается повышенный интерес к развитию бо LARGE LANGUAGE MODELS (LLMs), которые используются в различных приложениях, от генерирования текста до глубокого анализа данных. Одной из ключевых сложностей в их инференсе является управление кэшем ключ-значение (KV-cache), который используется для ускорения авторегрессионного декодирования. Несмотря на эффективность, возникают проблемы с эффективным использованием памяти: длина последовательности растет, что приводит к быстрому увеличению размера кэша. Это приводит к высоким затратам ресурсов и снижению производительности. Существующие методы управления кэшем требуют предварительного определения бюджета, что делает их ненаглядными и неэффективными для разнообразных задач. Этот вопрос требует разработки универсального адаптивного подхода для управления кэшем, который может автоматически настраиваться под различные требования. #### Метод Мы предлагаем **GVote** — адаптивную схему управления кэшем, которая выполняет оптимальное управление ресурсами без необходимости явного указания бюджета. Алгоритм оперирует принципом "важных ключей", которые представляют собой совокупность ключей, необходимых для будущих запросов. Чтобы предсказать эти запросы, GVote использует моделирование Monte-Carlo, в котором многократно сэмплируются потенциальные запросы. Для каждого сэмпла выбираются ключи, отвечающие ему, и суммируются в агрегированный бюджет. Эта стратегия позволяет адаптировать кэш под разные требования запросов без ручного вмешательства. Архитектура GVote включает модули для моделирования вероятностей запросов, оптимизации кэша и интеграции с LLMs. #### Результаты Наши эксперименты проводились на нескольких бенчмарках, включая GSM8K, RULER и Longbench. Мы сравнивали GVote с имеющимися методами управления кэшем. Результаты показали, что GVote достигает 2-кратного сокращения потребления памяти при сохранении высокой точности или лучшей, чем у базовых методов. Это указывает на высокую эффективность GVote в уменьшении затрат ресурсов без потери качества вывода. Мы также проверили стабильность GVote по отношению к различным нагрузочным условиям, подтвердив гибкость и надежность приложения. #### Значимость GVote предлагает новый подход к управлению кэшем KV-cache, который автоматически адаптируется под различные задачи LLMs. Это особенно важно для приложений, где постоянно меняются требования к ресурсам и запросам. GVote может применяться в сценариях, где необходима максимальная эффективность памяти, такие как мобильные устройства, облачные сервисы и реальному врем

Annotation:

Large language models (LLMs) inference relies heavily on KV-caches to accelerate autoregressive decoding, but the resulting memory footprint grows rapidly with sequence length, posing significant efficiency challenges. Current KV-cache compression methods suffer from a Procrustes' bed problem: they force diverse workloads into fixed compression ratios, leading to suboptimal resource allocation and inference performance. To this end, we present GVote, an adaptive KV-cache compression scheme that ...

ID: 2509.03136v1 cs.DB, cs.AI

arXiv PDF

📄 Research Challenges in Relational Database Management Systems for LLM Queries

2025-08-30

Авторы:

Kerem Akillioglu, Anurag Chakraborty, Sairaj Voruganti, M. Tamer Özsu

## Контекст Large language models (LLMs), такие как GPT, возникли в 2018 году и стали основополагающей технологией для приложений, включая текстовую сводку, анализ тональности и автоматизированный ответ на вопросы. Недавно LLMs были интегрированы в реляционные системы управления базами данных (RDBMS) для улучшения запросов и поддержки операций сложной обработки данных. Организации, такие как Amazon, Databricks, Google и Snowflake, позволяют использовать LLMs напрямую в SQL-запросах, называемых LLM queries, для повышения эффективности и понимания данных. Однако существующие решения, основанные на открытом исходном коде, имеют ограниченные возможности и низкую производительность. В настоящем исследовании предлагается подробное описание работы с LLM-интегрированными RDBMS, выявление ограничений и первые шаги в преодоление существующих проблем. ## Метод Для изучения LLM-интегрированных RDBMS были выбраны два открытых исходных решения и одна корпоративная платформа. Исследования основывались на воспроизведении пяти представительных запросов, показывающих различные стороны характеристик LLM-интегрированных систем. Эти запросы были применены для определения функциональных и производительностных ограничений, а также для выявления проблем с масштабируемостью. Также проведено исследование способов оптимизации использования ресурсов и улучшения планирования запросов. Результатом работы были научно обоснованные шаги к улучшению LLM-интегрированных систем, включая инструменты для улучшения планирования запросов и распределения ресурсов. ## Результаты На основе исследования были выявлены три основные проблемы: ограниченная возможность обеспечения структурированных выходных данных, неэффективное использование ресурсов и проблемы с планированием запросов. Организации, использующие текущие решения, сталкиваются с тем, что запросы LLM не всегда могут генерировать структурированные выходные данные в формате, который нужен для дальнейшей обработки. Кроме того, ограниченность ресурсов и ограниченный планировщик запросов приводят к неэффективности и недостаточной масштабируемости. Исследователи предложили свои инициативы для улучшения этих аспектов, включая новые подходы к планированию запросов и применение методов для оптимизации ресурсов. В результате были получены улучшения в производительности и масштабируемости LLM-интегрированных RDBMS. ## Значимость Результаты имеют значительное значение для нескольких областей применения. Во-первых, LLM-интегрированные RDBMS могут улучшить бизнес-анализ и принятие решений за счет улучшения функций оперативного ана

Annotation:

Large language models (LLMs) have become essential for applications such as text summarization, sentiment analysis, and automated question-answering. Recently, LLMs have also been integrated into relational database management systems to enhance querying and support advanced data processing. Companies such as Amazon, Databricks, Google, and Snowflake offer LLM invocation directly within SQL, denoted as LLM queries, to boost data insights. However, open-source solutions currently have limited fun...

ID: 2508.20912v1 cs.DB, cs.AI

arXiv PDF

📄 Bootstrapping Learned Cost Models with Synthetic SQL Queries

2025-08-29

Авторы:

Michael Nidd, Christoph Miksovic, Thomas Gschwind, Francesco Fusco, Andrea Giovannini, Ioana Giurgiu

## Контекст В системах управления базами данных (СУБД) необходимо обеспечить эффективность выполнения запросов и минимизировать затраты. Одним из ключевых показателей является точность прогнозирования затрат. Оптимальное прогнозирование затрат позволяет оптимизировать ресурсы, уменьшить время отклика и обеспечить надежность. Однако существуют сложности в получении реалистичных наборов данных для обучения машинного обучения (ML), которые могут повлиять на точность и стоимость моделей. Эти сложности влекут за собой готовность инвестировать в подготовку больших наборов данных или в создание имитационных моделей. Более того, создание разнообразных наборов данных для конкретного экземпляра СУБД позволяет тестировать оптимальность запросов, но требует интеллектуальных решений для генерации этих наборов. Этот процесс является важным для тестирования устойчивости и эффективности работы СУБД. ## Метод Мы применяем методы имитационного обучения, основанные на методах современной генеративной AI и технологий генерации языка (LLM). Технология LLM позволяет генерировать объемные и семантически разнообразные наборы данных, которые могут эффективно имитировать реальные запросы к базе данных. Наша методика включает следующие этапы: 1) создание генеративной модели, которая может генерировать SQL-запросы с различной семантикой; 2) использование синтетических данных для обучения учительной модели, направленной на прогнозирование затрат; 3) оценка эффективности модели в различных сценариях. Метод предъявляет требования к сложности генерируемых данных, чтобы модель могла хорошо обобщаться на реальные запросы. ## Результаты Мы провели эксперименты с использованием различных наборов данных, включая реальные и синтетические. Обученная модель показала повышенную точность предсказания затрат при обучении на синтетических данных, сравнимой с реальными наборами. Мы сравнили нашу модель с конкурентными подходами и выявили, что наш подход позволяет значительно сократить количество обучающих данных, необходимых для достижения точности, 45% меньше, чем при использовании других методов генерации данных. Это уменьшение в количестве данных приводит к сокращению времени обучения и уменьшению стоимости подготовки данных. ## Значимость Наши результаты могут иметь значительное применение в области тестирования СУБД, где требуется эффективность и точность в прогнозировании затрат. Это позволяет улучшить модели для принятия решений в зоне оптимизации ресурсов и регулирования затрат. Областьми применения могут стать интеллектуальные технологии, которые помогают оптимизировать работу систем

Annotation:

Having access to realistic workloads for a given database instance is extremely important to enable stress and vulnerability testing, as well as to optimize for cost and performance. Recent advances in learned cost models have shown that when enough diverse SQL queries are available, one can effectively and efficiently predict the cost of running a given query against a specific database engine. In this paper, we describe our experience in exploiting modern synthetic data generation techniques, ...

ID: 2508.19807v1 cs.DB, cs.AI

arXiv PDF

📄 Text to Query Plans for Question Answering on Large Tables

2025-08-28

Авторы:

Yipeng Zhang, Chen Wang, Yuzhe Zhang, Jacky Jiang

## Контекст В современном мире, где объемы данных растет экспоненциально, эффективное использование больших табличных данных становится ключевым заданием. Одним из основных вопросов является поиск эффективных способов для запросов и анализа таких данных, особенно для пользователей, не обладающих значительным опытом работы с программированием и SQL. Несмотря на то, что тексто-к SQL-подходы показали выдающиеся результаты на бенчмарк-данных, они не успешно решают проблему работы с большими таблицами и ограниченной поддержкой современных аналитических задач, таких как главные компоненты и обнаружение аномалий. Наша работа направлена на развитие нового подхода к преобразованию естественного языка в выполняемые планы запросов, позволяющий более гибкий и эффективный подход к анализу данных. ## Метод Мы предлагаем разработать фреймворк, который превращает пользовательские запросы на естественном языке в последовательности выполняемых операций, при этом не привязываясь к конкретной базе данных. Наш подход основывается на использовании глубоких нейронных сетей, которые интерпретируют запросы и строят последовательности операций. Мы используем глубокую модель типа LLM (large language model), которая последовательно оптимизирует поиск решений, при этом позволяя использовать все выигрыши скорости и гибкости в обработке данных. Ключевым элементом является то, что фреймворк может работать непосредственно с данными, выполняя на них необходимые операции, и не требуя загрузки всего датасета в модель. ## Результаты Мы проводим эксперименты на различных базах данных, включая традиционные и большие таблицы с тематикой научного характера. Мы проверяем нашу модель на способности решать задачи, от простых запросов до сложных аналитических задач. Результаты показывают, что наш подход выполняет запросы быстрее и эффективнее, чем существующие системы, благодаря использованию гибкой архитектуры и прямому доступу к данным. Мы также показали, что наше решение успешно поддерживает различные аналитические функции, такие как PCA и аномалии, что дает более широкие возможности по экспериментированию запросами. ## Значимость Наш фреймворк может быть применен в различных областях, где требуется эффективный доступ к большим табличным данным, включая научные исследования, риккор и внедрение аналитических систем в различных промышленных секторах. Основное преимущество нашего подхода заключается в том, что он предоставляет более гибкую и производительную альтернативу SQL, позволяя выполнять широкий спектр запросов, в том числе такие, которые невозможны в клас

Annotation:

Efficient querying and analysis of large tabular datasets remain significant challenges, especially for users without expertise in programming languages like SQL. Text-to-SQL approaches have shown promising performance on benchmark data; however, they inherit SQL's drawbacks, including inefficiency with large datasets and limited support for complex data analyses beyond basic querying. We propose a novel framework that transforms natural language queries into query plans. Our solution is impleme...

ID: 2508.18758v1 cs.DB, cs.AI, cs.CL

arXiv PDF

1
2
3
4
5
6

Показано 31 - 40 из 52 записей