Taggus: An Automated Pipeline for the Extraction of Characters' Social Networks from Portuguese Fiction Literature
2508.03358v1
cs.CL, cs.IR
2025-08-09
Авторы:
Tiago G Canário, Catarina Duarte, Flávio L. Pinheiro, João L. M. Pereira
Резюме на русском
В статье предлагается Taggus, автоматизированная конвейерная система для выделения социальных сетей персонажей из русской художественной литературы. Данная задача требует решения сложных проблем, включая идентификацию персонажей и их взаимоотношений, которые трудно решить с помощью имеющихся методов NLP. Основной проблемой является нехватка тренировочных данных в менее представленных языках, что приводит к низкому качеству готовых методов. Taggus использует POS-тегирование и геометрические методы для выделения социальных сетей, показывая высокую эффективность: F1-Score $94.1\%$ при определении персонажей и $75.9\%$ при выявлении их взаимодействий, что значительно превышает результаты состоящих в составе State-of-the-Art. Таким образом, Taggus представляет собой первый шаг к решению этой проблемы в немногочисленной литературе на этот счет. Доступность системы в открытом доступе позволяет способствовать дальнейшему развитию методов в этой области.
Abstract
Automatically identifying characters and their interactions from fiction
books is, arguably, a complex task that requires pipelines that leverage
multiple Natural Language Processing (NLP) methods, such as Named Entity
Recognition (NER) and Part-of-speech (POS) tagging. However, these methods are
not optimized for the task that leads to the construction of Social Networks of
Characters. Indeed, the currently available methods tend to underperform,
especially in less-represented languages, due to a lack of manually annotated
data for training. Here, we propose a pipeline, which we call Taggus, to
extract social networks from literary fiction works in Portuguese. Our results
show that compared to readily available State-of-the-Art tools -- off-the-shelf
NER tools and Large Language Models (ChatGPT) -- the resulting pipeline, which
uses POS tagging and a combination of heuristics, achieves satisfying results
with an average F1-Score of $94.1\%$ in the task of identifying characters and
solving for co-reference and $75.9\%$ in interaction detection. These
represent, respectively, an increase of $50.7\%$ and $22.3\%$ on results
achieved by the readily available State-of-the-Art tools. Further steps to
improve results are outlined, such as solutions for detecting relationships
between characters. Limitations on the size and scope of our testing samples
are acknowledged. The Taggus pipeline is publicly available to encourage
development in this field for the Portuguese language.2
Ссылки и действия
Дополнительные ресурсы: