RooseBERT: A New Deal For Political Language Modelling
2508.03250v1
cs.CL, cs.AI
2025-08-06
Авторы:
Deborah Dore, Elena Cabrio, Serena Villata
Резюме на русском
**Резюме**
Растущий объём политических дебатов и обсуждений высокого уровня требует разработки специализированных методов для автоматического анализа такого контента. Однако специфика политического языка, в том числе использование скрытых коммуникационных стратегий и неявных аргументов, представляет сложную задачу даже для современных общеуниверсальных предварительно обученных языковых моделей. Для решения этой проблемы авторы представляют RooseBERT — специализированную языковую модель, предварительно обученную на большом корпусе политических дебатов и речей на английском языке (8 тыс. дебатов, каждый из которых состоит из нескольких поддебатов по различным темам). RooseBERT была оценена на четырех задачах: распознавание именованных сущностей, анализ тональности, выделение и классифицирование компонентов аргументации, а также предсказание и классификация отношений аргументов. Результаты демонстрируют значительное улучшение показателей по сравнению с общеуниверсальными моделями, подчеркивая преимущества доменно-специфичного предварительного обучения в анализе политических дебатов. RooseBERT доступна для исследовательского сообщества.
Abstract
The increasing amount of political debates and politics-related discussions
calls for the definition of novel computational methods to automatically
analyse such content with the final goal of lightening up political
deliberation to citizens. However, the specificity of the political language
and the argumentative form of these debates (employing hidden communication
strategies and leveraging implicit arguments) make this task very challenging,
even for current general-purpose pre-trained Language Models. To address this
issue, we introduce a novel pre-trained Language Model for political discourse
language called RooseBERT. Pre-training a language model on a specialised
domain presents different technical and linguistic challenges, requiring
extensive computational resources and large-scale data. RooseBERT has been
trained on large political debate and speech corpora (8K debates, each composed
of several sub-debates on different topics) in English. To evaluate its
performances, we fine-tuned it on four downstream tasks related to political
debate analysis, i.e., named entity recognition, sentiment analysis, argument
component detection and classification, and argument relation prediction and
classification. Our results demonstrate significant improvements over
general-purpose Language Models on these four tasks, highlighting how
domain-specific pre-training enhances performance in political debate analysis.
We release the RooseBERT language model for the research community.
Ссылки и действия
Дополнительные ресурсы: