Explicit and Implicit Data Augmentation for Social Event Detection

2509.04202v1 cs.CL, cs.SI 2025-09-06

Авторы:

Congbo Ma, Yuxia Wang, Jia Wu, Jian Yang, Jing Du, Zitai Qiu, Qing Li, Hu Wang, Preslav Nakov

Резюме на русском

## Контекст Социальное восприятие событий является важной задачей в области обработки естественного языка, которая состоит в идентификации и классификации важных событий из социальных сетей. Этот процесс напрямую зависит от качества меток, но обработка этих меток требует больших усилий и времени. В настоящее время существуют проблемы с доступностью больших объемов меток и их высокой стоимостью. Чтобы решить эти проблемы, развиваются методы автоматического повышения разнообразия данных и улучшения моделей. Одной из таких технологий является Augmentation framework for Social Event Detection (SED-Aug), которая использует текстовые и черновые методы для повышения качества моделей распознавания событий. ## Метод SED-Aug является двухступенчатым фреймворком, объединяющим в себе текстовые и черновые методы. Текстовые методы включают в себя пять различных стратегий повышения диверсии текста с помощью бо LLM. Черновые методы включают в себя пять новых методов, работающих в пространстве входных данных, и генерируют как новые примеры, так и новые фичи. Эти методы работают с использованием структурированных смешанных входных данных. Главный этап SED-Aug заключается в двухэтапной маргинальной оптимизации, где каждый метод предлагает свои варианты, и где выбор самого подходящего метода происходит на основе сравнения с результатов других методов. ## Результаты Для оценки SED-Aug проводились эксперименты на двух датасетах: Twitter2012 и Twitter2018. На Twitter2012 SED-Aug показал увеличение F1-меры на 17.67% в сравнении с лучшим базовым решением. На Twitter2018 увеличение F1-меры составило 15.57%. Эти результаты доказывают, что SED-Aug значительно повышает качество распознавания событий. Модель была оценена на различных классах событий, включая новизну, волатильность и структуру событий. ## Значимость SED-Aug может применяться в различных сферах, таких как мониторинг социальных событий, анализ трендов в социальных сетях, а также в области анализа текстов для детектирования событий. Основные преимущества этой модели заключаются в ее универсальности и высокой точности. Она может использоваться в реальном времени и имеет потенциал для расширения в области машинного обучения и анализа данных. ## Выводы SED-Aug доказала свою эффективность в повышении качества моделей распознавания событий в социальных сетях. Она предлагает новый подход к автоматическому повышению разнообразия данных и годится для использования в реальном времени. Направления будущих исследований могут включать расширение архитектуры для учета новых типов событий, а та

Abstract

Social event detection involves identifying and categorizing important events from social media, which relies on labeled data, but annotation is costly and labor-intensive. To address this problem, we propose Augmentation framework for Social Event Detection (SED-Aug), a plug-and-play dual augmentation framework, which combines explicit text-based and implicit feature-space augmentation to enhance data diversity and model robustness. The explicit augmentation utilizes large language models to enhance textual information through five diverse generation strategies. For implicit augmentation, we design five novel perturbation techniques that operate in the feature space on structural fused embeddings. These perturbations are crafted to keep the semantic and relational properties of the embeddings and make them more diverse. Specifically, SED-Aug outperforms the best baseline model by approximately 17.67% on the Twitter2012 dataset and by about 15.57% on the Twitter2018 dataset in terms of the average F1 score. The code is available at GitHub: https://github.com/congboma/SED-Aug.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Explicit and Implicit Data Augmentation for Social Event Detection

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Machine Learning Approach for Detection of Mental Health Conditions and Cyberb...

Listening Between the Lines: Decoding Podcast Narratives with Language Modeling

Social Simulations with Large Language Model Risk Utopian Illusion

A Generalizable Rhetorical Strategy Annotation Model Using LLM-based Debate Simu...

Good Intentions Beyond ACL: Who Does NLP for Social Good, and Where?

Навигация