Schema Inference for Tabular Data Repositories Using Large Language Models
2509.04632v1
cs.DB, cs.AI
2025-09-09
Авторы:
Zhenyu Wu, Jiaoyan Chen, Norman W. Paton
Резюме на русском
## Контекст
Работа с непроверенными табличными данными, содержащими несогласованности в представлении и недостаточно метаданных, является трудной и запутанной задачей. Хотя ранее развиты методы для обнаружения и эксплуатации табличных данных, схематизация таких данных остается сложной задачей, особенно когда метаданные ограничены. Обнаружение и интерпретация структуры таблиц являются ключевыми для их эффективного использования в задачах, таких как обнаружение значимости данных, создание запросов и анализ. Мы предлагаем SI-LLM (Schema Inference using Large Language Models), которое использует технологии больших языковых моделей для вывода концептуальной схемы из непроверенных табличных данных, используя только заголовки столбцов и значения ячеек.
## Метод
SI-LLM основывается на трех этапах. В первом этапе используется технология генеративного моделирования для построения высококачественных данных для обучения. Затем, используя промежуточные образцы, языковая модель выводит нейросетевую модель, которая выполняет сравнение и вывод. Наконец, генеративная модель генерирует концептуальную схему запросов, включая типы сущностей, атрибуты и их взаимоотношения. Архитектура метода основывается на глубоких нейросетевых моделях, обученных с помощью больших объемов данных, что позволяет получать точные и детальные схемы даже при недостаточном количестве метаданных.
## Результаты
В экспериментах SI-LLM был протестирован на двух наборах данных: таблицах веба и открытыми данными. Он показал перспективные результаты в целом, а также более высокие или одинаковые результаты по сравнению с современными методами на каждом этапе. Например, SI-LLM существенно повысил точность вывода сущностей и связей, а также повысил удобочитаемость интерпретаций данных. Эта система позволяет пользователю быстро понять структуру данных и принять решения на ее основе.
## Значимость
SI-LLM может применяться в различных областях, включая базы данных, анализ данных и дизайн баз данных. Он предоставляет более конкретные и точные схемы, чем существующие методы, что упрощает работу с непроверенными данными. Это может повлиять на развитие технологий, повышая эффективность обработки табличных данных и улучшая качество решений, основанных на этих данных.
## Выводы
SI-LLM является перспективным инструментом для вывода схем табличных данных, используя только заголовки и значения ячеек. Он достигает более высокого качества и точности по сравнению с другими методами. Наше исследование продемонстрировало возможность использования технологий больших языковых моделей для решения сложных задач в области д
Abstract
Minimally curated tabular data often contain representational inconsistencies
across heterogeneous sources, and are accompanied by sparse metadata. Working
with such data is intimidating. While prior work has advanced dataset discovery
and exploration, schema inference remains difficult when metadata are limited.
We present SI-LLM (Schema Inference using Large Language Models), which infers
a concise conceptual schema for tabular data using only column headers and cell
values. The inferred schema comprises hierarchical entity types, attributes,
and inter-type relationships. In extensive evaluation on two datasets from web
tables and open data, SI-LLM achieves promising end-to-end results, as well as
better or comparable results to state-of-the-art methods at each step. All
source code, full prompts, and datasets of SI-LLM are available at
https://github.com/PierreWoL/SILLM.
Ссылки и действия
Дополнительные ресурсы: