Schema Inference for Tabular Data Repositories Using Large Language Models

2509.04632v1 cs.DB, cs.AI 2025-09-09
Авторы:

Zhenyu Wu, Jiaoyan Chen, Norman W. Paton

Резюме на русском

## Контекст Работа с непроверенными табличными данными, содержащими несогласованности в представлении и недостаточно метаданных, является трудной и запутанной задачей. Хотя ранее развиты методы для обнаружения и эксплуатации табличных данных, схематизация таких данных остается сложной задачей, особенно когда метаданные ограничены. Обнаружение и интерпретация структуры таблиц являются ключевыми для их эффективного использования в задачах, таких как обнаружение значимости данных, создание запросов и анализ. Мы предлагаем SI-LLM (Schema Inference using Large Language Models), которое использует технологии больших языковых моделей для вывода концептуальной схемы из непроверенных табличных данных, используя только заголовки столбцов и значения ячеек. ## Метод SI-LLM основывается на трех этапах. В первом этапе используется технология генеративного моделирования для построения высококачественных данных для обучения. Затем, используя промежуточные образцы, языковая модель выводит нейросетевую модель, которая выполняет сравнение и вывод. Наконец, генеративная модель генерирует концептуальную схему запросов, включая типы сущностей, атрибуты и их взаимоотношения. Архитектура метода основывается на глубоких нейросетевых моделях, обученных с помощью больших объемов данных, что позволяет получать точные и детальные схемы даже при недостаточном количестве метаданных. ## Результаты В экспериментах SI-LLM был протестирован на двух наборах данных: таблицах веба и открытыми данными. Он показал перспективные результаты в целом, а также более высокие или одинаковые результаты по сравнению с современными методами на каждом этапе. Например, SI-LLM существенно повысил точность вывода сущностей и связей, а также повысил удобочитаемость интерпретаций данных. Эта система позволяет пользователю быстро понять структуру данных и принять решения на ее основе. ## Значимость SI-LLM может применяться в различных областях, включая базы данных, анализ данных и дизайн баз данных. Он предоставляет более конкретные и точные схемы, чем существующие методы, что упрощает работу с непроверенными данными. Это может повлиять на развитие технологий, повышая эффективность обработки табличных данных и улучшая качество решений, основанных на этих данных. ## Выводы SI-LLM является перспективным инструментом для вывода схем табличных данных, используя только заголовки и значения ячеек. Он достигает более высокого качества и точности по сравнению с другими методами. Наше исследование продемонстрировало возможность использования технологий больших языковых моделей для решения сложных задач в области д

Abstract

Minimally curated tabular data often contain representational inconsistencies across heterogeneous sources, and are accompanied by sparse metadata. Working with such data is intimidating. While prior work has advanced dataset discovery and exploration, schema inference remains difficult when metadata are limited. We present SI-LLM (Schema Inference using Large Language Models), which infers a concise conceptual schema for tabular data using only column headers and cell values. The inferred schema comprises hierarchical entity types, attributes, and inter-type relationships. In extensive evaluation on two datasets from web tables and open data, SI-LLM achieves promising end-to-end results, as well as better or comparable results to state-of-the-art methods at each step. All source code, full prompts, and datasets of SI-LLM are available at https://github.com/PierreWoL/SILLM.

Ссылки и действия