Cross-lingual Opinions and Emotions Mining in Comparable Documents

2508.03112v1 cs.CL, I.2.7 2025-08-09
Авторы:

Motaz Saad, David Langlois, Kamel Smaili

Резюме на русском

В статье рассматривается проблема анализа тональности и эмоций в сходных документах на разных языках. Рассматриваются сходные документы, аллинентированные по тематике в разных языках (английский и арабский), которые не являются прямыми переводами. Основной целью является изучение различий в тональности и эмоциях (счастье, гнев, страх, расстройство, жалость и удивление) между английскими и арабскими документами. Для решения этой задачи предлагается метод кросс-лингвистического классификации, не зависящего от машинного перевода. Был разработан билингвальный словарь эмоций на основе WordNet-Affect (WNA) для английского и арабского языков. Эмоции и тональность были отмечены с помощью статистического подхода, сравнивая пары сходных документов из разных источников (Euronews, BBC и Al-Jazeera). Исследование показало, что тональность и эмоции согласовываются, когда документы из одного источника, но различаются, когда они из разных. Таким образом, предложенный подход является языковой-независимым и подходит для других языковых пар.

Abstract

Comparable texts are topic-aligned documents in multiple languages that are not direct translations. They are valuable for understanding how a topic is discussed across languages. This research studies differences in sentiments and emotions across English-Arabic comparable documents. First, texts are annotated with sentiment and emotion labels. We apply a cross-lingual method to label documents with opinion classes (subjective/objective), avoiding reliance on machine translation. To annotate with emotions (anger, disgust, fear, joy, sadness, surprise), we manually translate the English WordNet-Affect (WNA) lexicon into Arabic, creating bilingual emotion lexicons used to label the comparable corpora. We then apply a statistical measure to assess the agreement of sentiments and emotions in each source-target document pair. This comparison is especially relevant when the documents originate from different sources. To our knowledge, this aspect has not been explored in prior literature. Our study includes English-Arabic document pairs from Euronews, BBC, and Al-Jazeera (JSC). Results show that sentiment and emotion annotations align when articles come from the same news agency and diverge when they come from different ones. The proposed method is language-independent and generalizable to other language pairs.

Ссылки и действия