Cross-lingual Opinions and Emotions Mining in Comparable Documents
2508.03112v1
cs.CL, I.2.7
2025-08-09
Авторы:
Motaz Saad, David Langlois, Kamel Smaili
Резюме на русском
В статье рассматривается проблема анализа тональности и эмоций в сходных документах на разных языках. Рассматриваются сходные документы, аллинентированные по тематике в разных языках (английский и арабский), которые не являются прямыми переводами. Основной целью является изучение различий в тональности и эмоциях (счастье, гнев, страх, расстройство, жалость и удивление) между английскими и арабскими документами. Для решения этой задачи предлагается метод кросс-лингвистического классификации, не зависящего от машинного перевода. Был разработан билингвальный словарь эмоций на основе WordNet-Affect (WNA) для английского и арабского языков. Эмоции и тональность были отмечены с помощью статистического подхода, сравнивая пары сходных документов из разных источников (Euronews, BBC и Al-Jazeera). Исследование показало, что тональность и эмоции согласовываются, когда документы из одного источника, но различаются, когда они из разных. Таким образом, предложенный подход является языковой-независимым и подходит для других языковых пар.
Abstract
Comparable texts are topic-aligned documents in multiple languages that are
not direct translations. They are valuable for understanding how a topic is
discussed across languages. This research studies differences in sentiments and
emotions across English-Arabic comparable documents. First, texts are annotated
with sentiment and emotion labels. We apply a cross-lingual method to label
documents with opinion classes (subjective/objective), avoiding reliance on
machine translation. To annotate with emotions (anger, disgust, fear, joy,
sadness, surprise), we manually translate the English WordNet-Affect (WNA)
lexicon into Arabic, creating bilingual emotion lexicons used to label the
comparable corpora. We then apply a statistical measure to assess the agreement
of sentiments and emotions in each source-target document pair. This comparison
is especially relevant when the documents originate from different sources. To
our knowledge, this aspect has not been explored in prior literature. Our study
includes English-Arabic document pairs from Euronews, BBC, and Al-Jazeera
(JSC). Results show that sentiment and emotion annotations align when articles
come from the same news agency and diverge when they come from different ones.
The proposed method is language-independent and generalizable to other language
pairs.
Ссылки и действия
Дополнительные ресурсы: