📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Declarative Techniques for NL Queries over Heterogeneous Data

2025-10-22

Авторы:

Elham Khabiri, Jeffrey O. Kephart, Fenno F. Heath III, Srideepika Jayaraman, Fateh A. Tipu, Yingjie Li, Dhruv Shah, Achille Fokoue, Anu Bhamidipaty

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In many industrial settings, users wish to ask questions in natural language, the answers to which require assembling information from diverse structured data sources. With the advent of Large Language Models (LLMs), applications can now translate natural language questions into a set of API calls or database calls, execute them, and combine the results into an appropriate natural language response. However, these applications remain impractical in realistic industrial settings because they do n...

ID: 2510.16470v1 cs.DB, cs.AI, cs.SE

arXiv PDF

📄 Disentangling the schema turn: Restoring the information base to conceptual modelling

2025-09-05

Авторы:

Chris Partridge, Andrew Mitchell, Sergio de Cesare, Oscar Xiberta Soto

## Контекст В современных практиках разработки концептуальных моделей в компьютерных науках существует сильное, почти универсальное предпочтение к концептуальным схемам. Эти схемы часто называются просто концептуальными моделями, что демонстрирует сильное схема-центричное стремление. Этот подход является кристаллизацией почти вездесущей тенденции в популярных учебниках по базам данных. Буквально "перемотка", которую мы обозначили как "schema turn", представляет собой сильное уделение внимания концептуальным схемам в полном отрезании от информационной базы. Такой подход породил широко распространенные практики в концептуальной моделировании, но при этом привел к лишению внимания важному компоненту — информационной базе. Цель нашего исследования заключается в разъяснении происхождения этого подхода, показании того, что он не является фундаментальным, и позволении внедрению более всеобъемлющего подхода, который включает обе стороны — схему и её информационную базу. Это позволит улучшить автоматизацию и глубину исследований в области концептуального моделирования. ## Метод Мы предлагаем рассмотреть концептуальное моделирование как систему, включающую концептуальную схему и информационную базу, и рассматривать их как интегрированные, но различные, компоненты. Для достижения этой цели мы используем методологию, основанную на новой технологии — bCLEARer. Эта технология представляет собой pipeline-based conceptual modelling, которая позволяет автоматизировать процесс моделирования с учетом обоих компонентов. Мы используем bCLEARer для продemonстрации возможностей этого нового подхода, демонстрируя, как он может быть применен в различных контекстах. Также, мы проводим эксперименты с различными данными, показывая, как этот подход может быть применен в реальных ситуациях, чтобы получить более точные и эффективные результаты. ## Результаты Мы провели ряд экспериментов, используя различные наборы данных, включая как синтетические, так и реальные. Наши результаты показали, что применение pipeline-based conceptual modelling позволяет более точно отразить информационную базу в концептуальной модели, что в свою очередь улучшает качество моделирования. Мы также проанализировали влияние различных параметров на результаты и показали, что наша методология может значительно повысить точность и объём данных, которые могут быть включены в модель. Эксперименты также показали, что bCLEARer может быть применен в различных сценариях, включая те, где информационная база является очень объёмной и сложной. ## Значимость Результаты нашего исследования имеют зна

Annotation:

If one looks at contemporary mainstream development practices for conceptual modelling in computer science, these so clearly focus on a conceptual schema completely separated from its information base that the conceptual schema is often just called the conceptual model. These schema-centric practices are crystallized in almost every database textbook. We call this strong, almost universal, bias towards conceptual schemas the schema turn. The focus of this paper is on disentangling this turn with...

ID: 2509.01617v1 cs.DB, cs.AI, cs.SE, D.2.10

arXiv PDF

📄 Tabularis Formatus: Predictive Formatting for Tables

2025-08-19

Авторы:

Mukul Singh, José Cambronero, Sumit Gulwani, Vu Le, Gust Verbruggen

## Контекст Spreadsheet manipulation software, такие как Microsoft Excel и Google Sheets, широко используются для управления и анализа данных в табличной форме. Однако создание правил кондиционного форматирования (CF) в таких приложениях часто является задачей, требующей специального технического знания и опыта работы с конкретными платформами. Данная сложность может привести к неэффективному использованию программных возможностей для пользователей, не обладающих подходящим опытом. Поскольку пользователи часто сталкиваются с проблемами в создании CF-правил, включая неполное понимание того, какие правила необходимо создать, сложность их создания и недостаточность пользовательских интерфейсов, естественно возникает потребность в автоматизированных решениях, которые могут упростить процесс. В данной работе предлагается TaFo — нейро-символьная модель, которая адресует эти проблемы, предлагая прогностические правила CF для таблиц. ## Метод TaFo основывается на компонентной синтезирующей методологии, но расширяет ее с помощью знаний, взятых из языковых моделей и методов, позволяющих сохранять разнообразие в предлагаемых правилах. Основной идеей является автоматическое создание правил CF с расчетом на их визуальные свойства, не затрагивая исходные данные. TaFo модель учитывает не только структурные аспекты таблиц (такие как тип данных и соотношение значений), но и семантическое значение данных, чтобы создавать более точные и полезные правила. Архитектура TaFo включает несколько модулей, таких как: - **Feature Extraction Module**, который извлекает признаки из таблицы; - **Rule Synthesis Module**, который строит правила CF с учетом визуальных свойств; - **Diversity Preserving Module**, который гарантирует разнообразие предложенных правил. ## Результаты Для оценки TaFo был использован каталог из 1.8 миллиона публичных рабочих книг с установленными CF-правилами и манипуляциями с таблицами. Выполнен сравнительный эксперимент с другими системами, включая символьные и нейронные модели, которые также предлагают правила CF. Результаты показали, что TaFo значительно превосходит текущие системы по нескольким критериям: - **Precision**: TaFo показал более высокую точность в совпадении с пользовательскими правилами, достигая 15.6%--26.5% выигрыша по сравнению с другими системами; - **Diversity**: TaFo обеспечивает более широкий спектр разнообразных правил, что полезно для пользователей, искащих различные варианты представления таблицы; - **Coverage**: TaFo предлагает более полные правила, охватывая большую долю таблиц с CF-правилами. ## Значимость TaFo может быть применено во многих областях, включая управление дан

Annotation:

Spreadsheet manipulation software are widely used for data management and analysis of tabular data, yet the creation of conditional formatting (CF) rules remains a complex task requiring technical knowledge and experience with specific platforms. In this paper we present TaFo, a neuro-symbolic approach to generating CF suggestions for tables, addressing common challenges such as user unawareness, difficulty in rule creation, and inadequate user interfaces. TaFo takes inspiration from component b...

ID: 2508.11121v1 cs.DB, cs.AI, cs.SE

arXiv PDF