SeLeRoSa: Sentence-Level Romanian Satire Detection Dataset

2509.00893v1 cs.CL, I.2.7; I.7 2025-09-05
Авторы:

Răzvan-Alexandru Smădu, Andreea Iuga, Dumitru-Clementin Cercel, Florin Pop

Резюме на русском

## Контекст Романский язык, несмотря на свою краеугольную значимость в регионе, лишь недавно привлек внимание в результате прогрессов в области машинного обучения. Исследователи приложили усилия для создания данных и моделей, которые могут обрабатывать текст на румынском языке. Однако, специфика языка, включая его синтаксические особенности и традиционные стилистические приемы, часто оставляются недооцененными. Одной из таких сложностей является детекция сатиры в новостных статьях на румынском языке. Сатира, ирония и сарказм часто используются для выражения своего мнения, но их могут интерпретировать как фактический отчет, подобно фейковым новостям. В данной работе мы представляем первый датасет для детекции сатиры на уровне предложений на румынском языке под названием **SeLeRoSa** (Sentence-Level Romanian Satire Detection Dataset). Датасет включает 13,873 ручной оценки и содержит предложения из различных областей, таких как социальные вопросы, информационные технологии, наука и кино. Однако, существуют лишь немногочисленные исследования, которые предлагают анализ на уровне предложений для румынского языка, что делает данную область актуальной и интересной для исследований. ## Метод Для построения **SeLeRoSa** была проведена тщательная работа над выбором исходных текстов, аннотацией и структурированием. Исходные данные были собраны из различных источников, в том числе открытых новостных ресурсов и специализированных сайтов. Для каждого предложения была проведена ручная аннотация, определяющая наличие сатиры с помощью специализированных критериев. Для использования моделями были созданы метки на уровне предложений, что позволило создать задачу классификации на уровне предложений. Для построения моделей использовались базовые модели, такие как BERT, RoBERTa, и DistilBERT, а также были разработаны классификаторы, которые могут работать в zero-shot и fine-tuning режимах. Мы также проверили универсальность моделей и оценили их поведение на различных подмножествах датасета. ## Результаты Мы провели эксперименты с несколькими моделями, включая zero-shot и fine-tuning режимы. Было проведено сравнение показателей качества работы моделей, таких как F1-меры, точность и рекульсивность. Результаты показали, что лучшие результаты показываются моделями, которые используют fine-tuning режим, однако тем не менее, все модели сталкиваются с ошибками в сложных и нестандартных случаях. Мы также провели анализ некоторых ошибок и выявили, что модели часто имеют трудности при детекции сатиры в сложных контекстах, где сатира характеризуется сложностью стилистических приемов или нети

Abstract

Satire, irony, and sarcasm are techniques typically used to express humor and critique, rather than deceive; however, they can occasionally be mistaken for factual reporting, akin to fake news. These techniques can be applied at a more granular level, allowing satirical information to be incorporated into news articles. In this paper, we introduce the first sentence-level dataset for Romanian satire detection for news articles, called SeLeRoSa. The dataset comprises 13,873 manually annotated sentences spanning various domains, including social issues, IT, science, and movies. With the rise and recent progress of large language models (LLMs) in the natural language processing literature, LLMs have demonstrated enhanced capabilities to tackle various tasks in zero-shot settings. We evaluate multiple baseline models based on LLMs in both zero-shot and fine-tuning settings, as well as baseline transformer-based models. Our findings reveal the current limitations of these models in the sentence-level satire detection task, paving the way for new research directions.

Ссылки и действия

Связанные статьи

Towards Fundamental Language Models: Does Linguistic Competence Scale with Model...

## Контекст Современные языковые модели (LLM) достигли впечатляющих возможностей в области обработки естественного языка...

2025-09-05