DEPTH: Hallucination-Free Relation Extraction via Dependency-Aware Sentence Simplification and Two-tiered Hierarchical Refinement

2508.14391v1 cs.CL, cs.AI 2025-08-22

Авторы:

Yupei Yang, Fan Feng, Lin Yang, Wanxi Deng, Lin Qu, Biwei Huang, Shikui Tu, Lei Xu

Резюме на русском

## Контекст Современные большие языковые модели (LLM) доказали свою эффективность в решении задач реляционного выделения. Однако, несмотря на высокую точность в классификации семантических отношений, эти модели часто страдают от проблемы **"hallucination"** (выдуманности) — сущности, которые не существуют в данных, но все же упоминаются в результатах. Это происходит в ситуациях с синтаксически сложными предложениями или неоднозначными семантическими контекстами. Такие ошибки приводят к предсказанию сущностных связей, которые могут существенно замедлить процесс построения информационных графов и разрушить надежность системы. В этой работе мы сосредоточились на решении этих проблем, предлагая фреймворк DEPTH, который способен уменьшить ошибки и добиться более точных результатов. ## Метод Фреймворк DEPTH основывается на двух главных компонентах: 1) **Dependency-aware Sentence Simplification (DEP)** и 2) **Two-tiered Hierarchical Refinement (THR)**. 1. **DEP** — это модуль, ориентированный на упрощение предложений, призванный свести сложные синтаксические структуры к более простой форме, сохраняя важные семантические отношения. Для этого он использует концепции **Dependency Paths**, которые позволяют выделить важные сущности и отношения. Это позволяет уменьшить шум и улучшить устойчивость предсказаний. 2. **THR** — это двухуровневый подход, который включает локальное и глобальное рефинейммент. В **локальном рефинеймменте**, каждый парный контекст между сущностями оценивается отдельно, чтобы выявить искажения в предыдущем этапе. Затем, в **глобальном этапе**, все предсказания агрегируются, и система пересматривает все отношения в целостном контексте, устраняя случайные ошибки и добавляя контекстные коррекции. В дополнение, мы предлагаем **Causality-driven Reward Model**, который уменьшает влияние "spurious correlations" (случайных соотношений), например, когда модель "запоминает" некорректные сопоставления в процессе fine-tuning. Это позволяет добиться более качественной обучения с помощью reinforcement learning (RL) и human feedback (HF). ## Результаты Мы провели эксперименты на 6 различных бенчмарках (датасетах), включая **TACRED**, **NYT**, **ReVerb45K**, и др. Наша модель DEPTH показала следующие результаты: - **Accuracy**: DEPTH повысила F1-меру в среднем на 17.2% по сравнению с современными стандартными моделями. - **Hallucination Rate**: Мы существенно уменьшили халлуцинационный фактор до 7.0%, что значительно превышает исследовательские модели. - **Robustness**: Модель показала себя устойчивой к недостаткам в данных и синтаксическим сложностям, что было доказано в анализе на загрязнённых и нерегулярных данных. Эти результаты подтверждают, что DEPTH эффективно справля

Abstract

Relation extraction enables the construction of structured knowledge for many downstream applications. While large language models (LLMs) have shown great promise in this domain, most existing methods concentrate on relation classification, which predicts the semantic relation type between a related entity pair. However, we observe that LLMs often struggle to reliably determine whether a relation exists, especially in cases involving complex sentence structures or intricate semantics, which leads to spurious predictions. Such hallucinations can introduce noisy edges in knowledge graphs, compromising the integrity of structured knowledge and downstream reliability. To address these challenges, we propose DEPTH, a framework that integrates Dependency-aware sEntence simPlification and Two-tiered Hierarchical refinement into the relation extraction pipeline. Given a sentence and its candidate entity pairs, DEPTH operates in two stages: (1) the Grounding module extracts relations for each pair by leveraging their shortest dependency path, distilling the sentence into a minimal yet coherent relational context that reduces syntactic noise while preserving key semantics; (2) the Refinement module aggregates all local predictions and revises them based on a holistic understanding of the sentence, correcting omissions and inconsistencies. We further introduce a causality-driven reward model that mitigates reward hacking by disentangling spurious correlations, enabling robust fine-tuning via reinforcement learning with human feedback. Experiments on six benchmarks demonstrate that DEPTH reduces the average hallucination rate to 7.0\% while achieving a 17.2\% improvement in average F1 score over state-of-the-art baselines.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DEPTH: Hallucination-Free Relation Extraction via Dependency-Aware Sentence Simplification and Two-tiered Hierarchical Refinement

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация