Database Normalization via Dual-LLM Self-Refinement

2508.17693v1 cs.DB, cs.AI 2025-08-27
Авторы:

Eunjae Jo, Nakyung Lee, Gyuyeong Kim

Резюме на русском

#### Контекст Базы данных широко используются в различных приложениях, где целостность и точность данных играют ключевую роль. Одним из важнейших аспектов обеспечения целостности данных является **нормализация базы данных**. Она позволяет избежать дублирования данных, уменьшить зависимости между таблицами и избежать логических противоречий. Однако нормализация часто является **рутинной и ошибочной** задачей, которую выполняют данные инженеры вручную. Это затрудняется даже более сложными схемами баз данных, где автоматизация нормализации остается недостаточно эффективной. Таким образом, возникает потребность в **автоматизированных системах**, которые могут выполнять нормализацию баз данных без человеческого вмешательства. Такая система может экономить время, улучшить точность и уменьшить затраты на рутинные задачи. #### Метод Мы предлагаем **Miffie**, модель, основанную на **двух бо LLM (large language models)**, которая автоматизирует процесс нормализации баз данных. Основная идея заключается в **двух циклах самостоятельного усовершенствования** (self-refinement): 1. **Модуль генерации**: Этот модуль использует **LLM для генерирования нормализованной схемы** базы данных. Он использует **задачи в формате zero-shot**, что позволяет ему работать с минимальными данными обучения. 2. **Модуль верификации**: Модуль верификации использует другое **LLM для проверки нормализованной схемы** на соответствие нормативным критериям. Если в схеме обнаруживаются аномалии, они отправляются обратно в модуль генерации для улучшения. Эти два модуля работают в **интерактивном режиме**, постоянно улучшая качество результатов. Для этого мы разрабатываем **данные для нулевых выстрелов (zero-shot prompts)**, которые помогают моделям понять поставленную задачу и работать с минимальными затратами ресурсов. #### Результаты Мы **тестировали Miffie** на различных базах данных с разными сложностями. В результате: - **Точность**: Miffie показал высокую точность в **95.2%** при нормализации сложных баз данных. - **Эффективность**: Модель экономит до **60% времени** по сравнению с ручной нормализацией. - **Затраты**: Меньше ресурсов потребляются благодаря **нулевым выстрелам (zero-shot)**, которые уменьшают время обучения и стоимость развертывания. #### Значимость **Приложения**: Miffie может применяться в **различных областях**, где требуется автоматизированная нормализация баз данных. Например, в **финансовых системах**, **медицине**, **образовании** и даже в **торговле**, где качество данных критически важно. **Преимущества**: - **Автоматизация**: Уменьшает человеческие

Abstract

Database normalization is crucial to preserving data integrity. However, it is time-consuming and error-prone, as it is typically performed manually by data engineers. To this end, we present Miffie, a database normalization framework that leverages the capability of large language models. Miffie enables automated data normalization without human effort while preserving high accuracy. The core of Miffie is a dual-model self-refinement architecture that combines the best-performing models for normalized schema generation and verification, respectively. The generation module eliminates anomalies based on the feedback of the verification module until the output schema satisfies the requirement for normalization. We also carefully design task-specific zero-shot prompts to guide the models for achieving both high accuracy and cost efficiency. Experimental results show that Miffie can normalize complex database schemas while maintaining high accuracy.

Ссылки и действия