📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Ahmad Mousavi, Yeganeh Abdollahinejad, Roberto Corizzo, Nathalie Japkowicz, Zois Boukouvalas

#### Контекст Современное информационное пространство становится все более угрожающим местом для распространения массовой информации и нарушения прав человека. Одним из ключевых аспектов этой проблемы является распространение массовой информации, которая включает в себя различные методы, такие как ложная информация, глубокое фальсифицирование и дезинформация. Это может привести к дистанционной психологической войне, разрушению социальных связей и психологическому давлению на широкие слои общества. Для того чтобы сделать данные ситуации предсказуемыми и управляемыми, необходимо развитие специализированных методов, которые могут обнаруживать массовые информационные цепи и анализировать их в динамическом порядке. Исследование этой области является ключевым фактором для развития новых систем мониторинга и анализа, которые могут помочь в улучшении динамического мониторинга событий, включая распространение массовой информации. #### Метод E-CaTCH (Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling) является интерпретируемой и масштабируемой системой для обнаружения массовой информации. Её работа основывается на нескольких основных элементах. Во-первых, метод разбивает события на кластеры на основе текстового похожести и темпоральной близости. Затем, для каждого события, E-CaTCH извлекает текстовые и визуальные признаки с использованием предобученных моделей BERT и ResNet. Эти признаки обрабатываются с помощью внутримодального самоподстройного внимания, а затем соединяются двунаправленным кросс-модальным вниманием для образования контекстуализированных, контент-о acктеризированных представлений. Для моделирования прогрессии тематической повестки в динамическом порядке, E-CaTCH разделяет события на перекрывающиеся временные окна и использует улучшенную LSTM с элементами семантического сдвига и моментом для кодирования прогрессии. Метод также интегрирует адаптивную взвешивание классов, регуляризацию классами и тяжелые примеры, чтобы сдвинуть классификационную модель к более стабильной учительской системе. #### Результаты Исследования E-CaTCH проводились на датасетах Fakeddit, IND и COVID-19 MISINFOGRAPH. Результаты показали, что E-CaTCH превосходит состояние технологии по классическим метрикам, таким как F1-score, ROC-AUC и Precision-Recall. Особенно выделяется улучшенный результат в случаях неравновесия класса, где метод показал свою эффективность в обнаружении малочастотных классов. Cross-dataset evaluations также продемонстрировали высокую прогностическую стабильность и гибкость E-CaTCH в различных международных контекстах. ####
Annotation:
Detecting multimodal misinformation on social media remains challenging due to inconsistencies between modalities, changes in temporal patterns, and substantial class imbalance. Many existing methods treat posts independently and fail to capture the event-level structure that connects them across time and modality. We propose E-CaTCH, an interpretable and scalable framework for robustly detecting misinformation. If needed, E-CaTCH clusters posts into pseudo-events based on textual similarity and...
ID: 2508.11197v1 cs.CL, cs.AI, cs.LG, cs.SI
Авторы:

Eman Alamoudi, Ellis Solaiman

**Резюме** В статье представлена EHSAN, первая гибридная модель для арабского аспект-базированного мнения в сфере здравоохранения. Арабский язык представляет сложности из-за богатого диалектного разнообразия и недостатка меток аспектного мнения. Разработанная модель EHSAN объединяет машинное обучение с глубоким представлением языка ChatGPT и целенаправленным корректированием человеческим рецензентом, чтобы создать полностью новый языковой ресурс в области здравоохранения. Эта модель обучена на трёх версиях данных: полностью аннотированных человеком, частично аннотированных человеком и полностью подготовленных ChatGPT. Эксперименты показали, что даже с минимальными ручными корректировками модель достигает высокой точности. Меньшее количество классов аспектов также улучшало результаты. Результаты указывают на простоту и эффективность гибридного подхода в создании семантических моделей для арабского языка в здравоохранении. Будущие работы будут направлены на улучшение модели пространством применения и наращивании транспарентности.
Annotation:
Arabic-language patient feedback remains under-analysed because dialect diversity and scarce aspect-level sentiment labels hinder automated assessment. To address this gap, we introduce EHSAN, a data-centric hybrid pipeline that merges ChatGPT pseudo-labelling with targeted human review to build the first explainable Arabic aspect-based sentiment dataset for healthcare. Each sentence is annotated with an aspect and sentiment label (positive, negative, or neutral), forming a pioneering Arabic dat...
ID: 2508.02574v1 cs.CL, cs.AI, cs.LG, cs.SI