An LLM + ASP Workflow for Joint Entity-Relation Extraction
2508.12611v1
cs.AI, cs.CL, I.2.7; F.4.1
2025-08-20
Авторы:
Trang Tran, Trung Hoang Le, Huiping Cao, Tran Cao Son
Резюме на русском
## Контекст
Данная работа основывается на области обработки естественного языка, а именно на задаче **Joint Entity-Relation Extraction (JERE)**, которая представляет собой идентификацию сущностей и их взаимосвязей в тексте. Несмотря на важность этой задачи в различных приложениях, таких как медицинская информатика, интернет-реклама и юридические приложения, создание эффективных систем JERE остается сложной задачей. Существующие подходы, основанные на машинном обучении, часто требуют больших объемов аннотированных данных и имеют ограниченную возможность интеграции доменной информации в модели. Это приводит к высокой сложности, дорогостоящему обучению и ограниченной гибкости. Исследователи призваны разработать более эффективный и гибкий подход к решению этой задачи.
## Метод
Предлагаемый подход сочетает в себе мощь **generative pretrained large language models (LLMs)** и технологии **Answer Set Programming (ASP)**. Генерируемые LLMs обеспечивают мощь в разборе и понимании естественного языка, работая непосредственно с неаннотированным текстом. ASP, в свою очередь, предоставляет гибкие возможности знаний и разума, позволяя легко интегрировать доменные спецификации без внесения изменений в основной код. Разработанная рабочая схема JERE представляет собой гибкий инструмент, который может быть применен во всех доменах, не требуя изменений в основной логике ASP при расширении знаний.
## Результаты
Эксперименты проводились на трех бенчмарках для JERE: **ACE2005**, **CoNLL-2004** и **SciERC**. Данные эксперименты были проведены с ограниченным количеством тренировочных данных, чтобы продемонстрировать выносливость и эффективность подхода. Результаты показали, что LLM + ASP-подход превосходит состояние технологий в нескольких аспектах. Особенно заметное улучшение было замечено в задаче **Relation Extraction** на корпусе **SciERC**, где LLM + ASP показал 2,5 раз более высокую точность (35% против 15%) при использовании только 10% обучающих данных в сравнении с состоянием технологий.
## Значимость
Предложенный подход имеет широкие приложения во всех областях, где требуется выделение сущностей и их взаимосвязей, включая здравоохранение, юриспруденцию, интернет-рекламу и другие. Основные преимущества LLM + ASP заключаются в том, что он не требует больших объемов аннотированных данных, гибко интегрирует доменную информацию и показывает высокую эффективность даже при ограниченных ресурсах тренировочных данных. Это может привести к значительным экономиям времени и ресурсов в разработке моделей JERE.
## Выводы
Основные достижения этой работы состоят в разработке универсальной рабочей схемы JERE, которая объединяет мощ
Abstract
Joint entity-relation extraction (JERE) identifies both entities and their
relationships simultaneously. Traditional machine-learning based approaches to
performing this task require a large corpus of annotated data and lack the
ability to easily incorporate domain specific information in the construction
of the model. Therefore, creating a model for JERE is often labor intensive,
time consuming, and elaboration intolerant. In this paper, we propose
harnessing the capabilities of generative pretrained large language models
(LLMs) and the knowledge representation and reasoning capabilities of Answer
Set Programming (ASP) to perform JERE. We present a generic workflow for JERE
using LLMs and ASP. The workflow is generic in the sense that it can be applied
for JERE in any domain. It takes advantage of LLM's capability in natural
language understanding in that it works directly with unannotated text. It
exploits the elaboration tolerant feature of ASP in that no modification of its
core program is required when additional domain specific knowledge, in the form
of type specifications, is found and needs to be used. We demonstrate the
usefulness of the proposed workflow through experiments with limited training
data on three well-known benchmarks for JERE. The results of our experiments
show that the LLM + ASP workflow is better than state-of-the-art JERE systems
in several categories with only 10\% of training data. It is able to achieve a
2.5 times (35\% over 15\%) improvement in the Relation Extraction task for the
SciERC corpus, one of the most difficult benchmarks.