Database Entity Recognition with Data Augmentation and Deep Learning
2508.19372v1
cs.CL, cs.AI, cs.DB, cs.LG
2025-08-29
Авторы:
Zikun Fu, Chen Yang, Kourosh Davoudi, Ken Q. Pu
Резюме на русском
#### Контекст
Базы данных (DB) играют ключевую роль в современных системах управления информацией, но их интерактивность часто ограничена сложностью языка запросов и нехваткой эффективных инструментов для интерактивного взаимодействия. Нейросетевые модели, такие как Text-to-SQL, позволяют трансформировать естественный язык запросов в SQL-запросы, но выявление сущностей в тексте запросов (Database Entity Recognition, DB-ER) остается сложной задачей. Недостаток качественных данных, требуемых для обучения моделей DB-ER, затрудняет прогресс в этой области. Целью настоящей работы является развитие эффективных методов для DB-ER, оптимизированных для естественных языковых запросов.
#### Метод
Мы предложили многоуровневый подход для улучшения DB-ER. В качестве основы использовался сочетаний полнотекстовых текстов запросов и их связанных SQL-запросов, доступных в популярных Text-to-SQL бенчмарках. Мы разработали процедуру автоматической аннотации текстов запросов, используя их соответствующие SQL-запросы. Для реализации модели DB-ER использовалась модель T5, которая была приспособлена для двух задач: последовательной меткочтению (sequence tagging) и классификации токенов (token classification). Модель была тщательно тренирована и подкорректирована с использованием данных, полученных в результате разработанной процедуры автоматической аннотации.
#### Результаты
Мы провели эксперименты с нашей моделью DB-ER, сравнив её с двумя современными моделями NER на двух метриках: точности и рекурсии. Наши результаты показали, что модель T5-based DB-ER выдаёт лучшие результаты на обоих метриках. Выполненная абляционная оценка показала, что автоматическая аннотация на основе SQL-запросов повысила точность и рекурсию на 10%, а оптимизация модели T5 улучшила эти метрики на 5-10%. Эти результаты демонстрируют эффективность разработанного подхода в улучшении выделения сущностей в естественных языковых запросах.
#### Значимость
Разработанный подход имеет широкое применение в сфере естественного языка и баз данных, включая поиска информации, веб-интерфейсы, роботов-консультантов и другие системы, требующие взаимодействия с базами данных. Основное преимущество этого подхода заключается в том, что он позволяет значительно улучшить точность и рекурсию моделей DB-ER, что в свою очередь приводит к эффективному интерактивному взаимодействию с базами данных. Это может способствовать расширению применения текстовых запросов к базам данных, улучшить качество систем поддержки решений и обогатить возможности интерактивного анализа данных.
#### Выводы
Мы успешно разработали и оценили метод для выделения сущностей в
Abstract
This paper addresses the challenge of Database Entity Recognition (DB-ER) in
Natural Language Queries (NLQ). We present several key contributions to advance
this field: (1) a human-annotated benchmark for DB-ER task, derived from
popular text-to-sql benchmarks, (2) a novel data augmentation procedure that
leverages automatic annotation of NLQs based on the corresponding SQL queries
which are available in popular text-to-SQL benchmarks, (3) a specialized
language model based entity recognition model using T5 as a backbone and two
down-stream DB-ER tasks: sequence tagging and token classification for
fine-tuning of backend and performing DB-ER respectively. We compared our DB-ER
tagger with two state-of-the-art NER taggers, and observed better performance
in both precision and recall for our model. The ablation evaluation shows that
data augmentation boosts precision and recall by over 10%, while fine-tuning of
the T5 backbone boosts these metrics by 5-10%.