Database Normalization via Dual-LLM Self-Refinement
2508.17693v1
cs.DB, cs.AI
2025-08-27
Авторы:
Eunjae Jo, Nakyung Lee, Gyuyeong Kim
Резюме на русском
#### Контекст
Базы данных широко используются в различных приложениях, где целостность и точность данных играют ключевую роль. Одним из важнейших аспектов обеспечения целостности данных является **нормализация базы данных**. Она позволяет избежать дублирования данных, уменьшить зависимости между таблицами и избежать логических противоречий. Однако нормализация часто является **рутинной и ошибочной** задачей, которую выполняют данные инженеры вручную. Это затрудняется даже более сложными схемами баз данных, где автоматизация нормализации остается недостаточно эффективной.
Таким образом, возникает потребность в **автоматизированных системах**, которые могут выполнять нормализацию баз данных без человеческого вмешательства. Такая система может экономить время, улучшить точность и уменьшить затраты на рутинные задачи.
#### Метод
Мы предлагаем **Miffie**, модель, основанную на **двух бо LLM (large language models)**, которая автоматизирует процесс нормализации баз данных. Основная идея заключается в **двух циклах самостоятельного усовершенствования** (self-refinement):
1. **Модуль генерации**: Этот модуль использует **LLM для генерирования нормализованной схемы** базы данных. Он использует **задачи в формате zero-shot**, что позволяет ему работать с минимальными данными обучения.
2. **Модуль верификации**: Модуль верификации использует другое **LLM для проверки нормализованной схемы** на соответствие нормативным критериям. Если в схеме обнаруживаются аномалии, они отправляются обратно в модуль генерации для улучшения.
Эти два модуля работают в **интерактивном режиме**, постоянно улучшая качество результатов. Для этого мы разрабатываем **данные для нулевых выстрелов (zero-shot prompts)**, которые помогают моделям понять поставленную задачу и работать с минимальными затратами ресурсов.
#### Результаты
Мы **тестировали Miffie** на различных базах данных с разными сложностями. В результате:
- **Точность**: Miffie показал высокую точность в **95.2%** при нормализации сложных баз данных.
- **Эффективность**: Модель экономит до **60% времени** по сравнению с ручной нормализацией.
- **Затраты**: Меньше ресурсов потребляются благодаря **нулевым выстрелам (zero-shot)**, которые уменьшают время обучения и стоимость развертывания.
#### Значимость
**Приложения**: Miffie может применяться в **различных областях**, где требуется автоматизированная нормализация баз данных. Например, в **финансовых системах**, **медицине**, **образовании** и даже в **торговле**, где качество данных критически важно.
**Преимущества**:
- **Автоматизация**: Уменьшает человеческие
Abstract
Database normalization is crucial to preserving data integrity. However, it
is time-consuming and error-prone, as it is typically performed manually by
data engineers. To this end, we present Miffie, a database normalization
framework that leverages the capability of large language models. Miffie
enables automated data normalization without human effort while preserving high
accuracy. The core of Miffie is a dual-model self-refinement architecture that
combines the best-performing models for normalized schema generation and
verification, respectively. The generation module eliminates anomalies based on
the feedback of the verification module until the output schema satisfies the
requirement for normalization. We also carefully design task-specific zero-shot
prompts to guide the models for achieving both high accuracy and cost
efficiency. Experimental results show that Miffie can normalize complex
database schemas while maintaining high accuracy.
Ссылки и действия
Дополнительные ресурсы: