Taggus: An Automated Pipeline for the Extraction of Characters' Social Networks from Portuguese Fiction Literature

2508.03358v1 cs.CL, cs.IR 2025-08-09
Авторы:

Tiago G Canário, Catarina Duarte, Flávio L. Pinheiro, João L. M. Pereira

Резюме на русском

В статье предлагается Taggus, автоматизированная конвейерная система для выделения социальных сетей персонажей из русской художественной литературы. Данная задача требует решения сложных проблем, включая идентификацию персонажей и их взаимоотношений, которые трудно решить с помощью имеющихся методов NLP. Основной проблемой является нехватка тренировочных данных в менее представленных языках, что приводит к низкому качеству готовых методов. Taggus использует POS-тегирование и геометрические методы для выделения социальных сетей, показывая высокую эффективность: F1-Score $94.1\%$ при определении персонажей и $75.9\%$ при выявлении их взаимодействий, что значительно превышает результаты состоящих в составе State-of-the-Art. Таким образом, Taggus представляет собой первый шаг к решению этой проблемы в немногочисленной литературе на этот счет. Доступность системы в открытом доступе позволяет способствовать дальнейшему развитию методов в этой области.

Abstract

Automatically identifying characters and their interactions from fiction books is, arguably, a complex task that requires pipelines that leverage multiple Natural Language Processing (NLP) methods, such as Named Entity Recognition (NER) and Part-of-speech (POS) tagging. However, these methods are not optimized for the task that leads to the construction of Social Networks of Characters. Indeed, the currently available methods tend to underperform, especially in less-represented languages, due to a lack of manually annotated data for training. Here, we propose a pipeline, which we call Taggus, to extract social networks from literary fiction works in Portuguese. Our results show that compared to readily available State-of-the-Art tools -- off-the-shelf NER tools and Large Language Models (ChatGPT) -- the resulting pipeline, which uses POS tagging and a combination of heuristics, achieves satisfying results with an average F1-Score of $94.1\%$ in the task of identifying characters and solving for co-reference and $75.9\%$ in interaction detection. These represent, respectively, an increase of $50.7\%$ and $22.3\%$ on results achieved by the readily available State-of-the-Art tools. Further steps to improve results are outlined, such as solutions for detecting relationships between characters. Limitations on the size and scope of our testing samples are acknowledged. The Taggus pipeline is publicly available to encourage development in this field for the Portuguese language.2

Ссылки и действия