An LLM + ASP Workflow for Joint Entity-Relation Extraction

2508.12611v1 cs.AI, cs.CL, I.2.7; F.4.1 2025-08-20

Авторы:

Trang Tran, Trung Hoang Le, Huiping Cao, Tran Cao Son

Резюме на русском

## Контекст Данная работа основывается на области обработки естественного языка, а именно на задаче **Joint Entity-Relation Extraction (JERE)**, которая представляет собой идентификацию сущностей и их взаимосвязей в тексте. Несмотря на важность этой задачи в различных приложениях, таких как медицинская информатика, интернет-реклама и юридические приложения, создание эффективных систем JERE остается сложной задачей. Существующие подходы, основанные на машинном обучении, часто требуют больших объемов аннотированных данных и имеют ограниченную возможность интеграции доменной информации в модели. Это приводит к высокой сложности, дорогостоящему обучению и ограниченной гибкости. Исследователи призваны разработать более эффективный и гибкий подход к решению этой задачи. ## Метод Предлагаемый подход сочетает в себе мощь **generative pretrained large language models (LLMs)** и технологии **Answer Set Programming (ASP)**. Генерируемые LLMs обеспечивают мощь в разборе и понимании естественного языка, работая непосредственно с неаннотированным текстом. ASP, в свою очередь, предоставляет гибкие возможности знаний и разума, позволяя легко интегрировать доменные спецификации без внесения изменений в основной код. Разработанная рабочая схема JERE представляет собой гибкий инструмент, который может быть применен во всех доменах, не требуя изменений в основной логике ASP при расширении знаний. ## Результаты Эксперименты проводились на трех бенчмарках для JERE: **ACE2005**, **CoNLL-2004** и **SciERC**. Данные эксперименты были проведены с ограниченным количеством тренировочных данных, чтобы продемонстрировать выносливость и эффективность подхода. Результаты показали, что LLM + ASP-подход превосходит состояние технологий в нескольких аспектах. Особенно заметное улучшение было замечено в задаче **Relation Extraction** на корпусе **SciERC**, где LLM + ASP показал 2,5 раз более высокую точность (35% против 15%) при использовании только 10% обучающих данных в сравнении с состоянием технологий. ## Значимость Предложенный подход имеет широкие приложения во всех областях, где требуется выделение сущностей и их взаимосвязей, включая здравоохранение, юриспруденцию, интернет-рекламу и другие. Основные преимущества LLM + ASP заключаются в том, что он не требует больших объемов аннотированных данных, гибко интегрирует доменную информацию и показывает высокую эффективность даже при ограниченных ресурсах тренировочных данных. Это может привести к значительным экономиям времени и ресурсов в разработке моделей JERE. ## Выводы Основные достижения этой работы состоят в разработке универсальной рабочей схемы JERE, которая объединяет мощ

Abstract

Joint entity-relation extraction (JERE) identifies both entities and their relationships simultaneously. Traditional machine-learning based approaches to performing this task require a large corpus of annotated data and lack the ability to easily incorporate domain specific information in the construction of the model. Therefore, creating a model for JERE is often labor intensive, time consuming, and elaboration intolerant. In this paper, we propose harnessing the capabilities of generative pretrained large language models (LLMs) and the knowledge representation and reasoning capabilities of Answer Set Programming (ASP) to perform JERE. We present a generic workflow for JERE using LLMs and ASP. The workflow is generic in the sense that it can be applied for JERE in any domain. It takes advantage of LLM's capability in natural language understanding in that it works directly with unannotated text. It exploits the elaboration tolerant feature of ASP in that no modification of its core program is required when additional domain specific knowledge, in the form of type specifications, is found and needs to be used. We demonstrate the usefulness of the proposed workflow through experiments with limited training data on three well-known benchmarks for JERE. The results of our experiments show that the LLM + ASP workflow is better than state-of-the-art JERE systems in several categories with only 10\% of training data. It is able to achieve a 2.5 times (35\% over 15\%) improvement in the Relation Extraction task for the SciERC corpus, one of the most difficult benchmarks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация