AmbiGraph-Eval: Can LLMs Effectively Handle Ambiguous Graph Queries?

2508.09631v1 cs.DB, cs.AI 2025-08-15

Авторы:

Yuchen Tian, Kaixin Li, Hao Chen, Ziyang Luo, Hongzhan Lin, Sebastian Schelter, Lun Du, Jing Ma

Резюме на русском

#### Контекст Область исследования сосредоточена на возможностях и ограничениях Large Language Models (LLMs) в преобразовании естественного языка в запросы к базам данных, особенно в случае сложных графовых структур. Несмотря на неоспоримые достижения LLMs в области обработки естественного языка, реальные запросы часто не являются четкими и содержат неявности. Такие неявности могут приводить к не точным или неверным результатам. Это является ключевой проблемой при использовании LLMs для графовых запросов. Этот факт мотивирует разработку методов для повышения точности и значимости результатов LLMs в обработке неявных графовых запросов. #### Метод Для того чтобы изучить эффективность LLMs в работе с неявными запросами к графам, была разработана AmbiGraph-Eval. Это бенчмарк, содержащий набор реальных неявных запросов, а также экспертно подтвержденные ответы на них, построенный на основе разработанной подробной таксономии неявностей. Таксономия разделяет неявности на три категории: Attribute Ambiguity (неявности в атрибутах), Relationship Ambiguity (неявности в связях) и Attribute-Relationship Ambiguity (смешанные неявности). Каждая из этих категорий далее разделена на Same-Entity (проблемы на одной сущности) и Cross-Entity (проблемы между сущностями). Эта таксономия позволяет методично охватить различные аспекты неявности в запросах. #### Результаты Анализ был проведен на 9 популярных LLMs. Результаты показали, что даже наиболее продвинутые модели страдают от нерешительности при обработке неявных запросов. Наивысшие результаты были достигнуты в области Attribute Ambiguity, но даже там шансы на ошибку оставались высокими. Менее успешными были модели при работе с Relationship Ambiguity и Attribute-Relationship Ambiguity, особенно в Cross-Entity сценариях. Эти результаты подтверждают необходимость развития специализированных методов для более точной обработки неявных графовых запросов. #### Значимость Полученные результаты могут быть применены в области разработки интеллектуальных систем, использующих графовые запросы. Изучение этих проблем может способствовать улучшению точности и надежности LLMs в обработке графовых запросов. Благодаря AmbiGraph-Eval, разработчики могут проводить более точные эксперименты и сравнения моделей, что приведет к более новейшим и эффективным решениям для работы с неявными запросами. Это делает AmbiGraph-Eval важной компонентой в развитии технологий обработки естественного языка в контексте графовых систем. #### Выводы Основным достижением является разработка AmbiGraph-Eval и его таксономии неявностей, которая дает возможность методичного и глубокого изучения неявных графовых запросов. Будущие исследования должны сконцентрироваться на раз

Abstract

Large Language Models (LLMs) have recently demonstrated strong capabilities in translating natural language into database queries, especially when dealing with complex graph-structured data. However, real-world queries often contain inherent ambiguities, and the interconnected nature of graph structures can amplify these challenges, leading to unintended or incorrect query results. To systematically evaluate LLMs on this front, we propose a taxonomy of graph-query ambiguities, comprising three primary types: Attribute Ambiguity, Relationship Ambiguity, and Attribute-Relationship Ambiguity, each subdivided into Same-Entity and Cross-Entity scenarios. We introduce AmbiGraph-Eval, a novel benchmark of real-world ambiguous queries paired with expert-verified graph query answers. Evaluating 9 representative LLMs shows that even top models struggle with ambiguous graph queries. Our findings reveal a critical gap in ambiguity handling and motivate future work on specialized resolution techniques.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AmbiGraph-Eval: Can LLMs Effectively Handle Ambiguous Graph Queries?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Thucy: An LLM-based Multi-Agent System for Claim Verification across Relational ...

Efficiently Sampling Interval Patterns from Numerical Databases

Beyond Relational: Semantic-Aware Multi-Modal Analytics with LLM-Native Query Op...

AskDB: An LLM Agent for Natural Language Interaction with Relational Databases

Vortex: Hosting ML Inference and Knowledge Retrieval Services With Tight Latency...

Навигация