GENUINE: Graph Enhanced Multi-level Uncertainty Estimation for Large Language Models

2509.07925v1 cs.CL, cs.AI, cs.LG 2025-09-11

Авторы:

Tuo Wang, Adithya Kulkarni, Tyler Cody, Peter A. Beling, Yujun Yan, Dawei Zhou

Резюме на русском

## Контекст Область исследования, сосредоточенная на необходимости точной оценки неопределенности в работе больших языковых моделей (LLMs), особенно в высокорисковых сферах применения, таких как медицина, финансы и юриспруденция. Существующие методы недостаточно учитывают семантические зависимости, а детальные данные по формированию текста часто остаются невзятыми в расчетах. Это приводит к неточности оценки достоверности, чтобы сделать результаты LLM более надежными. GENUINE предлагает структурно-наблюдательную модель для улучшения оценки неопределенности, используя синтаксические зависимости и относительную группировку в графах. Это может дать новый уровень точности и потенциально внести вклад в понимание высококачественных выводов. ## Метод GENUINE (Graph ENhanced mUlti-level uncertaINty Estimation) представляет собой подход, основанный на графах и глубинно настраиваемый. Он использует деревья синтаксических зависимостей для построения графа текста, где узлы представляют слова, а связи — синтаксические зависимости. Эта структура позволяет построить графическую модель, которая активно учитывает не только токенами, но и семантическими отношениями между ними. Метод также включает в себя упрощенный графический пуллинг, чтобы сократить размерность входных данных. Его цель — повысить точность оценки неопределенности, учитывая зависимости в генерируемом тексте. ## Результаты Чтобы проверить эффективность GENUINE, проведены ряд экспериментов на различных задачах естественного языкового процессинга. Модель была сравнена с существующими методами оценки неопределенности, такими как semantic entropy. Наборы данных включили обученные модели, такие как BERT и GPT. Главные результаты показали, что GENUINE демонстрирует до 29% более высокого AUROC (Area Under the Receiver Operating Characteristic Curve) и сокращает ошибки калибровки на 15% в сравнении с текущими лучшими решениями. Эти результаты подтверждают, что GENUINE повышает точность и надежность оценок неопределенности в тексте. ## Значимость GENUINE может быть использована в различных критически важных приложениях, таких как диагностическая помощь, финансовый анализ и проверка документов. Избавление от ошибок калибровки и повышение точности оценки неопределенности может сделать решения, принимаемые на основе LLM, более надежными. Помимо этого, GENUINE может помочь в адаптации моделей для специализированных областей, где необходимо учитывать сложные структуры и семантические зависимости. Эти достижения демонстрируют перспективу графовых моделей для улучшения безопасности и надежности моделей языка. ## Выводы GENUINE представляет собой прорыв в области оценки неопре

Abstract

Uncertainty estimation is essential for enhancing the reliability of Large Language Models (LLMs), particularly in high-stakes applications. Existing methods often overlook semantic dependencies, relying on token-level probability measures that fail to capture structural relationships within the generated text. We propose GENUINE: Graph ENhanced mUlti-level uncertaINty Estimation for Large Language Models, a structure-aware framework that leverages dependency parse trees and hierarchical graph pooling to refine uncertainty quantification. By incorporating supervised learning, GENUINE effectively models semantic and structural relationships, improving confidence assessments. Extensive experiments across NLP tasks show that GENUINE achieves up to 29% higher AUROC than semantic entropy-based approaches and reduces calibration errors by over 15%, demonstrating the effectiveness of graph-based uncertainty modeling. The code is available at https://github.com/ODYSSEYWT/GUQ.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

GENUINE: Graph Enhanced Multi-level Uncertainty Estimation for Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация