AmbiGraph-Eval: Can LLMs Effectively Handle Ambiguous Graph Queries?
2508.09631v1
cs.DB, cs.AI
2025-08-15
Авторы:
Yuchen Tian, Kaixin Li, Hao Chen, Ziyang Luo, Hongzhan Lin, Sebastian Schelter, Lun Du, Jing Ma
Резюме на русском
#### Контекст
Область исследования сосредоточена на возможностях и ограничениях Large Language Models (LLMs) в преобразовании естественного языка в запросы к базам данных, особенно в случае сложных графовых структур. Несмотря на неоспоримые достижения LLMs в области обработки естественного языка, реальные запросы часто не являются четкими и содержат неявности. Такие неявности могут приводить к не точным или неверным результатам. Это является ключевой проблемой при использовании LLMs для графовых запросов. Этот факт мотивирует разработку методов для повышения точности и значимости результатов LLMs в обработке неявных графовых запросов.
#### Метод
Для того чтобы изучить эффективность LLMs в работе с неявными запросами к графам, была разработана AmbiGraph-Eval. Это бенчмарк, содержащий набор реальных неявных запросов, а также экспертно подтвержденные ответы на них, построенный на основе разработанной подробной таксономии неявностей. Таксономия разделяет неявности на три категории: Attribute Ambiguity (неявности в атрибутах), Relationship Ambiguity (неявности в связях) и Attribute-Relationship Ambiguity (смешанные неявности). Каждая из этих категорий далее разделена на Same-Entity (проблемы на одной сущности) и Cross-Entity (проблемы между сущностями). Эта таксономия позволяет методично охватить различные аспекты неявности в запросах.
#### Результаты
Анализ был проведен на 9 популярных LLMs. Результаты показали, что даже наиболее продвинутые модели страдают от нерешительности при обработке неявных запросов. Наивысшие результаты были достигнуты в области Attribute Ambiguity, но даже там шансы на ошибку оставались высокими. Менее успешными были модели при работе с Relationship Ambiguity и Attribute-Relationship Ambiguity, особенно в Cross-Entity сценариях. Эти результаты подтверждают необходимость развития специализированных методов для более точной обработки неявных графовых запросов.
#### Значимость
Полученные результаты могут быть применены в области разработки интеллектуальных систем, использующих графовые запросы. Изучение этих проблем может способствовать улучшению точности и надежности LLMs в обработке графовых запросов. Благодаря AmbiGraph-Eval, разработчики могут проводить более точные эксперименты и сравнения моделей, что приведет к более новейшим и эффективным решениям для работы с неявными запросами. Это делает AmbiGraph-Eval важной компонентой в развитии технологий обработки естественного языка в контексте графовых систем.
#### Выводы
Основным достижением является разработка AmbiGraph-Eval и его таксономии неявностей, которая дает возможность методичного и глубокого изучения неявных графовых запросов. Будущие исследования должны сконцентрироваться на раз
Abstract
Large Language Models (LLMs) have recently demonstrated strong capabilities
in translating natural language into database queries, especially when dealing
with complex graph-structured data. However, real-world queries often contain
inherent ambiguities, and the interconnected nature of graph structures can
amplify these challenges, leading to unintended or incorrect query results. To
systematically evaluate LLMs on this front, we propose a taxonomy of
graph-query ambiguities, comprising three primary types: Attribute Ambiguity,
Relationship Ambiguity, and Attribute-Relationship Ambiguity, each subdivided
into Same-Entity and Cross-Entity scenarios. We introduce AmbiGraph-Eval, a
novel benchmark of real-world ambiguous queries paired with expert-verified
graph query answers. Evaluating 9 representative LLMs shows that even top
models struggle with ambiguous graph queries. Our findings reveal a critical
gap in ambiguity handling and motivate future work on specialized resolution
techniques.
Ссылки и действия
Дополнительные ресурсы: