Multilingual Text-to-SQL: Benchmarking the Limits of Language Models with Collaborative Language Agents
2509.24405v1
cs.CL, cs.AI, cs.DB, cs.ET, cs.IR
2025-10-01
Авторы:
Khanh Trinh Pham, Thu Huong Nguyen, Jun Jo, Quoc Viet Hung Nguyen, Thanh Tam Nguyen
Резюме на русском
## Контекст
Область текстово-семантических запросов (Text-to-SQL) позволяет пользователям с естественным языком получать доступ к базам данных. Однако, большинство существующих бенчмарков ограничены исключительно английским языком, что существенно ограничивает возможности развития многоязычных технологий. Это ограничение создает проблему в реализации текстовых запросов на разных языках и стилях речи, что необходимо для оптимальной работы в многоязычных средах. Бенчмарк MultiSpider 2.0, расширенный из Spider 2.0, предлагает возможность работы на 8 языках (английский, немецкий, французский, испанский, португальский, японский, китайский, вьетнамский), сохраняя сложность Spider 2.0, но добавляя новые трудности связанные с языковыми различиями и диалектами.
## Метод
MultiSpider 2.0 создан как расширение Spider 2.0 с целью исследования многоязычных возможностей текстовых запросов к базам данных. Он сохраняет сложность исходного бенчмарка, но добавляет новые трудности, связанные с многоязычностью. Разработчики пришли к выводу, что для успешного выполнения запросов необходимо усиленное разумение и контекстное понимание текста, что делает эту задачу более сложной, чем она могла показаться в предыдущих бенчмарках. Использование текстовых запросов на нескольких языках требует более глубокой интеллектуальной обработки и многоязычной модели, что открывает новые возможности для развития текстовых запросов.
## Результаты
Эксперименты проводились на MultiSpider 2.0, использовались данные из Spider 2.0, а также дополнительные многоязычные данные, чтобы протестировать модели на многоязычность. Глубокие расширенные модели языка (LLM), такие как DeepSeek-R1 и OpenAI o1, показали только 4% точности выполнения запросов при использовании интринзического разума, в то время как на MultiSpider 1.0 эти модели достигли 60%. Это свидетельствует о существенном "многоязычном пробеле" в системах текстовых запросов к базам данных. Базовый подход, основанный на коллаборативных языковых агентах, позволил повысить точность до 15%, что является значительным улучшением, но все еще далеко от идеала.
## Значимость
Результаты исследования показывают, что текстовый SQL бенчмарк MultiSpider 2.0 является важной ресурсной платформой для изучения проблем многоязычных текстовых запросов. Он может быть применен в различных областях, включая медицину, финансы, юриспруденцию и техническую поддержку. Бенчмарк предоставляет обширные возможности для разработчиков моделей, позволяя имитировать реальные сценарии, в которых необходима многоязычная инте
Abstract
Text-to-SQL enables natural access to databases, yet most benchmarks are
English-only, limiting multilingual progress. We introduce MultiSpider 2.0,
extending Spider 2.0 to eight languages (English, German, French, Spanish,
Portuguese, Japanese, Chinese, Vietnamese). It preserves Spider 2.0's
structural difficulty while adding linguistic and dialectal variability,
demanding deeper reasoning for complex SQL. On this benchmark, state-of-the-art
LLMs (such as DeepSeek-R1 and OpenAI o1) reach only 4\% execution accuracy when
relying on intrinsic reasoning, versus 60\% on MultiSpider 1.0. Therefore, we
provide a collaboration-driven language agents baseline that iteratively
refines queries, improving accuracy to 15\%. These results reveal a substantial
multilingual gap and motivate methods that are robust across languages and
ready for real-world enterprise deployment. Our benchmark is available at
https://github.com/phkhanhtrinh23/Multilingual_Text_to_SQL.