Database Entity Recognition with Data Augmentation and Deep Learning

2508.19372v1 cs.CL, cs.AI, cs.DB, cs.LG 2025-08-29
Авторы:

Zikun Fu, Chen Yang, Kourosh Davoudi, Ken Q. Pu

Резюме на русском

#### Контекст Базы данных (DB) играют ключевую роль в современных системах управления информацией, но их интерактивность часто ограничена сложностью языка запросов и нехваткой эффективных инструментов для интерактивного взаимодействия. Нейросетевые модели, такие как Text-to-SQL, позволяют трансформировать естественный язык запросов в SQL-запросы, но выявление сущностей в тексте запросов (Database Entity Recognition, DB-ER) остается сложной задачей. Недостаток качественных данных, требуемых для обучения моделей DB-ER, затрудняет прогресс в этой области. Целью настоящей работы является развитие эффективных методов для DB-ER, оптимизированных для естественных языковых запросов. #### Метод Мы предложили многоуровневый подход для улучшения DB-ER. В качестве основы использовался сочетаний полнотекстовых текстов запросов и их связанных SQL-запросов, доступных в популярных Text-to-SQL бенчмарках. Мы разработали процедуру автоматической аннотации текстов запросов, используя их соответствующие SQL-запросы. Для реализации модели DB-ER использовалась модель T5, которая была приспособлена для двух задач: последовательной меткочтению (sequence tagging) и классификации токенов (token classification). Модель была тщательно тренирована и подкорректирована с использованием данных, полученных в результате разработанной процедуры автоматической аннотации. #### Результаты Мы провели эксперименты с нашей моделью DB-ER, сравнив её с двумя современными моделями NER на двух метриках: точности и рекурсии. Наши результаты показали, что модель T5-based DB-ER выдаёт лучшие результаты на обоих метриках. Выполненная абляционная оценка показала, что автоматическая аннотация на основе SQL-запросов повысила точность и рекурсию на 10%, а оптимизация модели T5 улучшила эти метрики на 5-10%. Эти результаты демонстрируют эффективность разработанного подхода в улучшении выделения сущностей в естественных языковых запросах. #### Значимость Разработанный подход имеет широкое применение в сфере естественного языка и баз данных, включая поиска информации, веб-интерфейсы, роботов-консультантов и другие системы, требующие взаимодействия с базами данных. Основное преимущество этого подхода заключается в том, что он позволяет значительно улучшить точность и рекурсию моделей DB-ER, что в свою очередь приводит к эффективному интерактивному взаимодействию с базами данных. Это может способствовать расширению применения текстовых запросов к базам данных, улучшить качество систем поддержки решений и обогатить возможности интерактивного анализа данных. #### Выводы Мы успешно разработали и оценили метод для выделения сущностей в

Abstract

This paper addresses the challenge of Database Entity Recognition (DB-ER) in Natural Language Queries (NLQ). We present several key contributions to advance this field: (1) a human-annotated benchmark for DB-ER task, derived from popular text-to-sql benchmarks, (2) a novel data augmentation procedure that leverages automatic annotation of NLQs based on the corresponding SQL queries which are available in popular text-to-SQL benchmarks, (3) a specialized language model based entity recognition model using T5 as a backbone and two down-stream DB-ER tasks: sequence tagging and token classification for fine-tuning of backend and performing DB-ER respectively. We compared our DB-ER tagger with two state-of-the-art NER taggers, and observed better performance in both precision and recall for our model. The ablation evaluation shows that data augmentation boosts precision and recall by over 10%, while fine-tuning of the T5 backbone boosts these metrics by 5-10%.

Ссылки и действия

Связанные статьи

A State-of-the-Art SQL Reasoning Model using RLVR

## Контекст В последние годы появилось много работ по искусству генерирования языка, но ряд проблем остается неразрешенн...

2025-09-30

Evaluating NL2SQL via SQL2NL

## Контекст Область исследования заключается в выводе запросов SQL на основе естественного языка (NL2SQL). Эта область и...

2025-09-09